共查询到19条相似文献,搜索用时 125 毫秒
1.
为获得较为鲁棒的识别性能,一般的语音识别系统中都会在后端加入一个置信度判决模块,以实现识别错误检测和集外词拒识等功能。针对命令词语音识别系统,传统的基于Filler模型的置信度方法由于自身模型结构的限制,性能相对有限,尤其是对集外词的检测效果不好。为此,使用了一种基于音节循环的置信度判决方法,并对该方法的解码网络进行精简,以满足实用化的效率要求。在中文命令词测试集上的实验结果表明,该方法相对于基于Filler模型的置信度方法对识别效果与识别效率都有了较大的提升。 相似文献
2.
基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network, HMM-DNN)的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN, MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学DNN(Single-task learning DNN, STL-DNN)建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。 相似文献
3.
4.
5.
从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。 相似文献
6.
7.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。 相似文献
8.
9.
提出了一种新的基于LBG和DTW结合的模板训练算法,包括模板训练、初始模板设置、空子集处理三个部分,能够完整、有效地解决语音识别中模板训练的问题。该算法实现了语音信号特征矩阵的聚类及其质心的生成,使孤立词语音识别系统更好地适用于非特定人的情况,提高了系统对训练集外说话人语音的正确识别率。设计、实现了一个识别系统,模板训练中较快的收敛速度和系统较高的识别率验证了算法的优良性能。 相似文献
10.
11.
12.
13.
针对目前一部分残障人士(如盲人等)面临的上网困难问题,本文通过语音识别和文本-语音转换两个部分的设计及运用,设计一个基于语音识别的盲人上网辅助系统。系统的语音识别部分,采用了线性预测(LPC)及矢量量化的距离(VQ)方法,过滤和识别人的语音信号;文本-语音转换部分,通过对每个动态打开的网页,采用文字转化成语音(text-to-speech,TTS)技术及语音合成平台完成语音合成,将其网页文本内容朗读出来,同时也可对用户进行语音提示。 相似文献
14.
针对语音识别系统对抗环境噪声的实际需求,提出一种二次组合抗噪技术,研究并设计了一种以数字信号处理器(DSP)为硬件平台,以隐马尔可夫模型(HMM)为算法的抗噪声嵌入式语音识别系统.DSP采用型号为TMS320VC5509A的芯片,配以外围硬件电路构成语音识别系统的硬件平台.软件设计以离散隐马尔可夫模型(DHMM)为识别算法进行编程,系统软件主要有识别、训练、学习和USB四个主要模块.实验结果表明:基于二次组合去噪技术的语音识别系统有更好的抗噪声效果. 相似文献
15.
基于ARM的嵌入式语音识别系统研究 总被引:1,自引:0,他引:1
在分析语音识别原理的基础上,设计了一个基于ARM9和嵌入式Linux的嵌入式语音识别系统。采用动态时间归整(DTW)算法对语音信号进行特征参数序列比较并识别出结果。采用S3C2410微处理器和嵌入式Linux操作系统,将交叉编译后的语音识别C语言程序编译进嵌入式Linux操作系统的文件系统,实现语音识别系统的功能。 相似文献
16.
基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究 总被引:1,自引:0,他引:1
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性. 相似文献
17.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。 相似文献
18.
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。 相似文献