首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 104 毫秒
1.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

2.
传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。  相似文献   

3.
在网络与数字世界中,传统简单的身份验证方案已无法满足人们对安全性、灵活性、准确度等更高标准的需求。在大数据分析、人工智能等新信息技术的催生下,多因子身份验证已成为了用户信息安全的主要保证。因此文章将通过对声纹识别技术的深入研究,以探索其在多因子身份验证方法中的实际运用。  相似文献   

4.
针对传统声纹识别方法在实际应用场景中跨设备情况下声纹识别性能较差的问题,提出了一种基于深度学习的跨设备声纹识别方法,采用了卷积循环网络的模型架构,在声纹注册阶段录制多段语音进行声纹特征的拟合建模,在识别阶段使用了切片降噪方式提取音频中的语音信息,在设备端使用了DSP芯片支持的双麦克采集现场声音。实验结果表明,在跨设备声纹识别条件下,本文提出的声纹识别方法识别准确率高于目前主流的方法,达到80%。  相似文献   

5.
通过对大型电力变压器(电抗器)声纹信号采集、处理与特征分析,提出了一种基于声纹识别技术的变压器工况检测方法及验证系统,实现对变压器工作状态的判断检测。首先,通过声纹采集传感器实地采集获取73组变压器音频,共约1800 min;其次,分别运用分段、分帧、加窗音频预处理方法对所采集的变压器声纹进行去噪处理;再次,综合运用能量特征、频率特征、梅尔频率倒谱系数、频率压缩方法提取变压器声纹特征并进行有效融合;最后,针对变压器工况声音由稳定工作状况发出的声音与不稳定的瞬时杂音加性叠加问题,提出一种基于余弦相似度算法实现声纹叠加的分离检测,同时建立一套变压器工况检测与验证分析系统。  相似文献   

6.
刘晓璇  季怡  刘纯平 《计算机科学》2021,48(z2):270-274
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优.  相似文献   

7.
论述了声纹识别的相关概念、应用领域及其区别于其他身份认证的优势,从软件方面构建了一个基于Matlab的声纹识别系统,并对整个系统进行了仿真实验,实验结果表明该系统具有较高的识别率,可应用于有限人群的身份认证。  相似文献   

8.
基于小波包提取特征的声纹识别   总被引:1,自引:0,他引:1  
关于生物特征识别问题,人耳的听觉识别精度很重要.识别研究难点在于如何选取有效的耐噪特征参数,以提高识别率,传统的特征参数都将语音视为一种平稳信号进行处理,不能很好的反映语音信号的动态特性,故不能得到较好的识别率.针对提高抗噪声性能和识别声信精度,提出了一种新的特征参数(DWP-MFCC),用在感知倒谱分析(Mel-Cepstrum)的基础上引入多分辨率小波包分析技术,通过提高时频分辨率,增强语音动态信息,克服了原有单一线性分析的不足,并基于矢量量化(VQ)系统进行说话人识别实验.实验证明,与LPCC和MFCC参数相比采用新方法使系统的识别率得到显著的提高.  相似文献   

9.
本文建立了一种基于RBF神经网络的声纹识别系统。提取了Mel频率倒谱系数及其一阶差分参数,利用时间规整网络对所得参数进行了有效的简化,运用RBF神经网络对声纹特征参数进行了训练和识别。Matlab的实验结果表明,RBF神经网络在声纹识别中具有良好的发展前景。  相似文献   

10.
11.
为提高行人行为识别精度,通过基于光流处理的Resnet-LSTM网络模型对行人过街行为进行识别.在采用光流法对连续视频帧进行处理的基础上,基于ResNet神经网络提取有序光流数据信息的空间维度特征,并利用LSTM网络进行时序性分析,完成行人过街行为的分类识别.论文利用Weizmann数据集对该模型做有效性检验,结果表明...  相似文献   

12.
目前声纹识别系统已经实现较高的识别精度,但是随着目标说话人个数的增加,一般系统很难满足实时性的要求,由此提出一种双层识别模型。在第一层识别模型中,采用基于VQ-VPT(Vector Quantization-Vantage Point Tree)模型进行快速匹配,挑选出与测试者声纹特征最相近的K个目标说话人声纹模型。在第二层识别模型中,采用GMM-UBM(Gaussian Mixture Model-Universal Background Model)模型,精确匹配上层模型得到的K个目标说话人声纹模型,并做出最终的判决。实验验证,双层识别模型在确保高识别精度的前提下,大幅度的提高了系统的识别速度。  相似文献   

13.
针对目前的行人属性识别方法存在行人属性数据不均衡、行人特征表达能力不足、鲁棒性差的问题,本文提出局部特征重叠与行人属性识别相结合的方法.网络使用全局和局部两个分支来提升网络整体特征表达能力,在局部分支中将得到的特征图切分为几块大小相同的几个部分并使用Focal loss计算每个属性的损失解决行人属性不均衡问题.最后将投...  相似文献   

14.
本文根据安防的需求,设计了智能小区认证系统。该系统采用新型声纹识别算法,运行在Linux平台上,采用OMAP3530作处理器,能实现高准确率识别,为小区的安防起到重要作用。  相似文献   

15.
曾斌  姚路  陈志诚 《计算机工程》2011,37(15):149-151,167
设计一个基于声纹识别的Web身份认证系统。在浏览器端利用自主开发的ActiveX录音控件录取封装使用者的声纹特征并传送给服务器,服务器端使用隐马尔科夫模型表述单字,单字之间通过增加静音状态分割以及语音训练形成稳定的声纹特征模型作为身份验证的基础库。实际测试结果表明,该系统识别性能好、可移植性强,适用于网络资源的远程声控。  相似文献   

16.
文章设计开发的基于声纹识别和语音识别的网络账号身份认证系统主要包含声纹录入、建库以及声纹判别两个部分。网络用户注册时,对用户的声纹进行采集;用户再次登录时,将用户的声纹与数据库中的声纹进行比较,通过声纹识别验证用户身份,确保用户的数据安全。系统建立在服务器端,安装方便快捷,安全性高。对用户要求低,仅需要一部麦克风即可完成注册。系统操作方便、简单,安全性、保密性好,市场前景广阔。  相似文献   

17.
声纹识别技术实现的关键点在于从语音信号中提取语音特征参数,此参数具备表征说话人特征的能力。基于GMM-UBM模型,通过Matlab实现文本无关的声纹识别系统,对主流静态特征参数MFCC、LPCC、LPC以及结合动态参数的MFCC,从说话人确认与说话人辨认两种应用角度进行性能比较。在取不同特征参数阶数、不同高斯混合度和使用不同时长的训练语音与测试语音的情况下,从理论识别效果、实际识别效果、识别所用时长、识别时长占比等多个方面进行了分析与研究。最终结果表明:在GMM-UBM模式识别方法下,三种静态特征参数中MFCC绝大多数时候具有最佳识别效果,同时其系统识别耗时最长;识别率与语音特征参数的阶数之间并非单调上升关系。静态参数在结合较佳阶数的动态参数时能够提升识别效果;增加动态参数阶数与提高系统识别效果之间无必然联系。  相似文献   

18.
行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号