首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
王康  董元菲 《计算机应用》2019,39(10):2937-2941
针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。  相似文献   

2.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

3.
姚煜  RYAD Chellali 《计算机应用》2018,38(9):2495-2499
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。  相似文献   

4.
刘晓璇  季怡  刘纯平 《计算机科学》2021,48(z2):270-274
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优.  相似文献   

5.
传统的风险管理方法专注于识别、预测和评估可能发生的潜在风险,但当企业面临突发的、不可预期的风险时,往往束手无策。因此,学术界逐渐将风险管理的视角由预测并规避风险转变为提升企业自身对风险的承受能力和从风险中恢复的能力,也就是企业的弹性能力。文中提出了基于时序特征数据的企业弹性能力预测方法,使用Bi-LSTM对时序特征数据进行双向编码,获得企业的特征表示,并通过softmax分类器得到弹性能力分类结果。模型在中国上市公司的真实数据集中进行实验,macro-F1值达到89.0%,与RF,XGBoost和LightGBM等未使用时序特征数据的模型相比有一定提升。此外,进一步探讨了企业弹性能力的多种影响因素及其重要程度,并首次将机器学习方法应用到企业弹性能力的评估预测中,为企业应对突发风险提供了理论方法指导。  相似文献   

6.
7.
端到端校验是一种有效的数据完整性检测手段,可为分布式存储系统提供基本的可靠性保证。Glusterfs 是一种常用的堆叠式分布式文件系统,但缺乏有效的数据完整性检测机制,存在用户数据遭受破坏而无法被发现的风险,即返回错误数据给用户。这种风险在某些情况还会扩散,造成多副本或灾备、双活情况下的数据丢失。针对这一问题,该文提出了一种高性价比的基于 Glusterfs 的端到端校验方案(命名为 Glusterfs-E2E),可以有效解决 Glusterfs 文件系统中存在的数据完整性风险。该方案不但可以提供全路径的保护,具备 2%~8% 的高性能开销,而且还可以提供软件故障的定位功能。  相似文献   

8.
针对传统声纹识别方法实现过程复杂、识别率低等问题, 提出了一种基于ResNet-LSTM的声纹识别方法.首先采用ResNet残差网络提取声纹的空间特征, 其次采用LSTM长短期记忆循环神经网络提取声纹的时序特征,通过ResNet与LSTM结合的特征提取方法获得了同时包含空间特征与时序特征的深度声纹特征. 实验结果表明,...  相似文献   

9.
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。  相似文献   

10.
为了将知识有效地融入到对话推理,提出了一种基于双层记忆网络的多领域端到端任务型对话系统。首先,该模型用知识行的形式代替三元组的形式表示知识,提升了知识定位的性能;其次,采用了双层记忆网络结构将知识和对话历史进行分别建模,提高了模型的推理能力;最后,使用了动态编码器对多种领域的数据进行编码,提升模型的泛化能力。通过实验分析,该模型的F1和BLEU指标在InCar和CamRest数据集上相较于对比算法均有一定的提升,验证了该模型的有效性和先进性。  相似文献   

11.
本文建立了一种基于RBF神经网络的声纹识别系统。提取了Mel频率倒谱系数及其一阶差分参数,利用时间规整网络对所得参数进行了有效的简化,运用RBF神经网络对声纹特征参数进行了训练和识别。Matlab的实验结果表明,RBF神经网络在声纹识别中具有良好的发展前景。  相似文献   

12.
长短期记忆网络(LSTM)广泛应用于视频序列的人脸表情识别,针对单层LSTM表达能力有限,在解决复杂问题时其泛化能力易受制约的不足,提出一种层级注意力模型:使用堆叠LSTM学习时间序列数据的分层表示,利用自注意力机制构建差异化的层级关系,并通过构造惩罚项,进一步结合损失函数优化网络结构,提升网络性能.在CK+和MMI数据集上的实验结果表明,由于构建了良好的层次级别特征,时间序列上的每一步都从更感兴趣的特征层级上挑选信息,相较于普通的单层LSTM,层级注意力模型能够更加有效地表达视频序列的情感信息.  相似文献   

13.
文章设计开发的基于声纹识别和语音识别的网络账号身份认证系统主要包含声纹录入、建库以及声纹判别两个部分。网络用户注册时,对用户的声纹进行采集;用户再次登录时,将用户的声纹与数据库中的声纹进行比较,通过声纹识别验证用户身份,确保用户的数据安全。系统建立在服务器端,安装方便快捷,安全性高。对用户要求低,仅需要一部麦克风即可完成注册。系统操作方便、简单,安全性、保密性好,市场前景广阔。  相似文献   

14.
手写笔迹识别是模式识别的一个重要研究领域。因为每个人的书写习惯有所不同,导致手写的字体有一定的差异。传统的Softmax模型在手写数字的识别结果上并没有达到人们的期望。目前,深度神经网络框架是模式识别领域的主流方法。长短期记忆神经网络(long-short term memory network,LSTM)是一种特殊的循环神经网络,它由输入门、遗忘门、输出门以及神经元组成。长短期记忆神经网络对于长序列问题有很好的处理。文中提出采用双向长短期记忆神经网络进行手写数字识别。采用MNIST数据集,分别使用传统的Softmax方法和双向长短期记忆神经网络方法对MNIST数据集里的图片进行识别。实验结果表明,传统的Softmax模型的正确率为92%左右,而LSTM模型的正确率达到了96.3%,提升4.3%。  相似文献   

15.
现阶段雷达目标检测识别主要依赖人工算法提取目标的特征,难点在于环境自适应能力弱,高强度杂波背景下难以有效检测到目标;针对上述问题,结合深度学习在图像识别等领域表现出的强大的学习表示能力,提出基于堆叠双向长短期记忆网络的雷达目标识别方法;网络模型以雷达多普勒维的回波数据构建数据集,采用双向LSTM提取雷达回波数据在时间序列上的正向和逆向信息,通过RMSProp优化算法对神经网络参数迭代训练,实现了对无人机这种低空慢速小目标的有效识别;实验结果表明,基于堆叠双向LSTM的雷达目标识别方法优于传统的SVM分类算法和卷积神经网络分类算法.  相似文献   

16.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

17.
文中提出了一种基于BP-深度信念网络( BP-DBN)的端到端态势评估算法,实现网络端到端态势等级判定。基于提出的分布式态势评估架构,使用BP-DBN分别构建认知域网元评估值、局部态势评估值和端到端态势评估值三者间的映射关系,最后实现端到端态势等级定性评估。实验结果表明,基于少量标记训练样本,BP-DBN测试错误率低,能够保证评估准确性,同时提出的评估算法能够有效评估端到端网络态势等级。  相似文献   

18.
针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题,对传统双流卷积模型进行改进,提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联,其中CNN网络作为空间流,将人体骨架空间运动姿态分为静态与动态特征进行分别提取,两者融合作为空间流的输出;在时间流中采用改进的可滑动长短时记忆网络,以增加人体骨架时序特征的提取能力;最后将两个分支进行时空融合,利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明,改进后模型的平均跨角度(Cross view,CV)精度达到92.5%,平均跨视角(Cross subject,CS)精度为87.9%。所提方法优于改进前及其他方法,可以有效地对人体危险动作做出识别,同时对于模糊动作也有较好的区分效果。  相似文献   

19.
声纹识别技术实现的关键点在于从语音信号中提取语音特征参数,此参数具备表征说话人特征的能力。基于GMM-UBM模型,通过Matlab实现文本无关的声纹识别系统,对主流静态特征参数MFCC、LPCC、LPC以及结合动态参数的MFCC,从说话人确认与说话人辨认两种应用角度进行性能比较。在取不同特征参数阶数、不同高斯混合度和使用不同时长的训练语音与测试语音的情况下,从理论识别效果、实际识别效果、识别所用时长、识别时长占比等多个方面进行了分析与研究。最终结果表明:在GMM-UBM模式识别方法下,三种静态特征参数中MFCC绝大多数时候具有最佳识别效果,同时其系统识别耗时最长;识别率与语音特征参数的阶数之间并非单调上升关系。静态参数在结合较佳阶数的动态参数时能够提升识别效果;增加动态参数阶数与提高系统识别效果之间无必然联系。  相似文献   

20.
曾斌  姚路  陈志诚 《计算机工程》2011,37(15):149-151,167
设计一个基于声纹识别的Web身份认证系统。在浏览器端利用自主开发的ActiveX录音控件录取封装使用者的声纹特征并传送给服务器,服务器端使用隐马尔科夫模型表述单字,单字之间通过增加静音状态分割以及语音训练形成稳定的声纹特征模型作为身份验证的基础库。实际测试结果表明,该系统识别性能好、可移植性强,适用于网络资源的远程声控。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号