首页 | 本学科首页   官方微博 | 高级检索  
     

改进卷积输入的端到端普通话语音识别
引用本文:王彦哲,张立民,张兵强,李振宇. 改进卷积输入的端到端普通话语音识别[J]. 计算机工程与应用, 2019, 55(17): 143-149. DOI: 10.3778/j.issn.1002-8331.1805-0486
作者姓名:王彦哲  张立民  张兵强  李振宇
作者单位:海军航空大学 信息融合研究所,山东 烟台,264000;海军航空大学 信息融合研究所,山东 烟台,264000;海军航空大学 信息融合研究所,山东 烟台,264000;海军航空大学 信息融合研究所,山东 烟台,264000
基金项目:国家自然科学基金重大研究计划资助项目;泰山学者工程专项经费资助
摘    要:主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。

关 键 词:序列级  低资源  端到端  卷积神经网络  批量归一化

End-to-End Mandarin Speech Recognition with Improved Convolution Input
WANG Yanzhe,ZHANG Limin,ZHANG Bingqiang,LI Zhenyu. End-to-End Mandarin Speech Recognition with Improved Convolution Input[J]. Computer Engineering and Applications, 2019, 55(17): 143-149. DOI: 10.3778/j.issn.1002-8331.1805-0486
Authors:WANG Yanzhe  ZHANG Limin  ZHANG Bingqiang  LI Zhenyu
Affiliation:Institute of Information Fusion, Naval Aviation University, Yantai, Shandong 264000,China
Abstract:
Keywords:sequence level  low resource  end-to-end  convolution neural network  batch normalization  
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号