首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为获得较为鲁棒的识别性能,一般的语音识别系统中都会在后端加入一个置信度判决模块,以实现识别错误检测和集外词拒识等功能。针对命令词语音识别系统,传统的基于Filler模型的置信度方法由于自身模型结构的限制,性能相对有限,尤其是对集外词的检测效果不好。为此,使用了一种基于音节循环的置信度判决方法,并对该方法的解码网络进行精简,以满足实用化的效率要求。在中文命令词测试集上的实验结果表明,该方法相对于基于Filler模型的置信度方法对识别效果与识别效率都有了较大的提升。  相似文献   

2.
基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network, HMM-DNN)的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN, MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学DNN(Single-task learning DNN, STL-DNN)建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。  相似文献   

3.
蒙古语语音识别系统的词表很难覆盖所有的蒙古文单词,并且随着社会的发展,蒙古文的新词和外来词也越来越多。为了解决蒙古语语音关键词检测系统中的集外词检测问题,该文提出了基于音素混淆网络的蒙古语语音关键词检测方法,并采用音素混淆矩阵改进了关键词的置信度计算方法。实验结果表明,基于音素混淆网络的蒙古语语音关键词检测方法可以较好地解决集外词的检测问题。蒙古语语音关键词检测系统采用改进的置信度计算方法后精确率提高了6%,召回率提高了2.69%,性能得到明显的提升。  相似文献   

4.
语音拒识技术是实现一个实用语音识别系统的关键。提出了一种新颖的基于置信度的非特定人语音识别拒识算法,该算法同时考虑了备选假设模型和多候选的信息,适用于拒识不正确的识别结果和词表外(OOV)语音。在一个非特定人英语命令词识别系统中做了一些相关的实验来评估这个算法的性能。实验结果表明,该算法可以有效地去除识别不可靠的语音,提高语音识别的整体性能。  相似文献   

5.
从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。  相似文献   

6.
情感语音包含语义内容和情感特征,为了寻找最能表达情感的特征,采用基于Attention机制的先进LSTM网络提取语音情感相关特征:该先进LSTM网络当前时刻的输入不仅与前一时刻有关,还与先前所有时刻有关,能够提取语音片段中的所有特征;同时,使用Attention机制选取最能表达情感的特征.实验结果表明:不同参数和优化器对语音情感识别系统性能有一定影响,最优参数集大幅提升了模型性能,而选择恰当的优化器对模型进行优化,能够进一步提升语音情感识别性能.  相似文献   

7.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。  相似文献   

8.
针对孤立词语音识别的任务,采用一维卷积神经网络(CNN)作为声学模型,利用卷积核在时间轴上的移动来反映语音信号的时变性,从而提高识别性能。然后引入了反映说话人特征的身份认证矢量i-vector,通过i-vector特征消除说话人差异对识别造成的影响,进一步提高识别性能。在实验室自建语音库上的实验表明,基于这两种方法的识别系统达到了91%的识别准确率。  相似文献   

9.
提出了一种新的基于LBG和DTW结合的模板训练算法,包括模板训练、初始模板设置、空子集处理三个部分,能够完整、有效地解决语音识别中模板训练的问题。该算法实现了语音信号特征矩阵的聚类及其质心的生成,使孤立词语音识别系统更好地适用于非特定人的情况,提高了系统对训练集外说话人语音的正确识别率。设计、实现了一个识别系统,模板训练中较快的收敛速度和系统较高的识别率验证了算法的优良性能。  相似文献   

10.
为了减小由于说话人之间声道形状的差异而引起的非特定人语音识别系统性能的 下降,研究了两种方法,一种是基于最大似然估计的频率归正说话人自适应方法,另一种是基 于Mellin变换的语音新特征.在非特定人孤立词语音识别系统上的初步实验表明,这两种方 法都可以提高系统对不同说话人的鲁棒性,相比之下,基于Mellin变换的语音新特征具有更 好的性能,它不仅提高了系统对不同话者的识别性能,而且也使系统对不同话者的误识率的 离散程度大大减小.  相似文献   

11.
陈聪  贺杰  陈佳 《控制工程》2021,28(3):585-591
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法.首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多...  相似文献   

12.
嵌入式语音识别系统的研究和实现   总被引:9,自引:1,他引:9  
本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统,同传统的基于PC的非特定人语音识别系统相比,该系统具备内存消耗小,运算速度快的优点。然后给出了该语音识别系统在多种嵌入式平台上的实现和评估结果,论证了非特定人语音识别系统在嵌入式平台上实现的可行性及其对硬件的最低配置要求,在技术层次上分析了目前实现高性能语音识别SOC的主要问题和困难,并指出了今后相关的研究方向。  相似文献   

13.
针对目前一部分残障人士(如盲人等)面临的上网困难问题,本文通过语音识别和文本-语音转换两个部分的设计及运用,设计一个基于语音识别的盲人上网辅助系统。系统的语音识别部分,采用了线性预测(LPC)及矢量量化的距离(VQ)方法,过滤和识别人的语音信号;文本-语音转换部分,通过对每个动态打开的网页,采用文字转化成语音(text-to-speech,TTS)技术及语音合成平台完成语音合成,将其网页文本内容朗读出来,同时也可对用户进行语音提示。  相似文献   

14.
针对语音识别系统对抗环境噪声的实际需求,提出一种二次组合抗噪技术,研究并设计了一种以数字信号处理器(DSP)为硬件平台,以隐马尔可夫模型(HMM)为算法的抗噪声嵌入式语音识别系统.DSP采用型号为TMS320VC5509A的芯片,配以外围硬件电路构成语音识别系统的硬件平台.软件设计以离散隐马尔可夫模型(DHMM)为识别算法进行编程,系统软件主要有识别、训练、学习和USB四个主要模块.实验结果表明:基于二次组合去噪技术的语音识别系统有更好的抗噪声效果.  相似文献   

15.
基于ARM的嵌入式语音识别系统研究   总被引:1,自引:0,他引:1  
在分析语音识别原理的基础上,设计了一个基于ARM9和嵌入式Linux的嵌入式语音识别系统。采用动态时间归整(DTW)算法对语音信号进行特征参数序列比较并识别出结果。采用S3C2410微处理器和嵌入式Linux操作系统,将交叉编译后的语音识别C语言程序编译进嵌入式Linux操作系统的文件系统,实现语音识别系统的功能。  相似文献   

16.
关勇  李鹏  刘文举  徐波 《自动化学报》2009,35(4):410-416
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性.  相似文献   

17.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。  相似文献   

18.
姚煜  RYAD Chellali 《计算机应用》2018,38(9):2495-2499
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。  相似文献   

19.
该文报告了组合LPC参数以及基频F0的高斯混合模型(GMM)电话语音说话人自动识别技术的实验研究结果。该研究在基线试验中GMM使用16混合共分散对角矩阵,特征量为LPC倒谱系数。而在开发系统测试中分别利用语音的全发话区间和有声区间两部分参数增加基频参数进行试验,并给出实验比较结果。在50人电话通话开放集自动切分语音流实验中正确识别率为76.97%,而提案方法为80.29%,改善率为3.32%。接近人工切分语音流时的识别率82.34%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号