首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
邮包校核语音识别系统的实时实现   总被引:6,自引:0,他引:6       下载免费PDF全文
本文研究开发了一套邮包信息校核语音识别系统.该系统利用中大词汇量非特定人连续语音识别技术实时实现了邮包信息的语音校核.系统可以识别普通话或四川话语音,可识别的词汇量约为4500条.系统还采用了拒识技术与说话人自适应技术,提高了整个系统的稳健性.实验表明对普通话的首选识别率达到98.7%,前三选识别率达到99.9%.对四川话的首选识别率达到95.9%,前三选识别率达到98.6%,对无关语音的正确拒识率达到85%,对口音较重的说话人经过自适应后识别率可提高5-8个百分点.  相似文献   

2.
汉语大词汇量连续语音识别系统研究进展   总被引:34,自引:3,他引:34  
刘加 《电子学报》2000,28(1):85-91
本文综述了近年来大词汇量连续语音识别技术进步和发展,描述了大词汇量连续汉语语音识别系统的设计方法.对语音识别系统中的一些关键技术和原理进行了详细地分析和讨论,并对语音识别技术进一步发展中存在的问题和近年语音识别研究发展动向进行了讨论.  相似文献   

3.
语音识别算法的确定与实现   总被引:1,自引:0,他引:1  
在语音识别的实验中,对几种算法方案进行了比较、分析和择优淘劣,标准是在一定词汇量的条件下,权衡占用机器的内存空间、(正确)识别率和响应速度。力争使与话者有关的单词语音识别系统的设计达到优化,取得满意的结果。本文即是此项实验的总结。  相似文献   

4.
大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升深度置信网络的识别准确率,提出一种基于区分性和ODLR自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高模型的鲁棒性。利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别结果取得了22.2%的提升。实验结果表明所提出的特征提取方法有效性。  相似文献   

5.
高建 《现代电子技术》2011,34(11):205-207
为了提高语音识别效率及对环境的依赖性,文章对语音识别算法部分和硬件部分做了分析与改进,采用ARMS3C2410微处理器作为主控制模块,采用UDA1314TS音频处理芯片作为语音识别模块,利用HMM声学模型及Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统。实验证明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识别率和室外识别率分别达到95.6%,92.3%。  相似文献   

6.
陈雷  杨俊安  王一  王龙 《信号处理》2015,31(3):290-298
大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高系统的鲁棒性。本文利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别准确率取得了6.9%的提升。实验结果表明所提出的特征提取方法相对于传统方法的优越性。   相似文献   

7.
基于音素的非特定人英语命令词识别算法研究   总被引:2,自引:0,他引:2  
贲俊  余小清  万旺根 《信号处理》2002,18(6):535-538
本文提出了一种新的基于音素的非特定人英语命令词识别算法,并在此算法基础上构建了一个非特定人英语命令词识别系统。结合非特定人语音识别系统的特点,系统的实现采用了HTK与VisualC++两种工具混和使用,提高了整个系统的开发效率。在识别阶段将置信度评估和不完全匹配的方法结合在一起,在一定程度上提高了识别的质量,在词汇量大于10的情况下取得了87.8%的识别率。  相似文献   

8.
为提高语音识别系统在复杂声学场景下的识别率,出现了以单通道语音增强(Monaural Speech Enhancement)技术作为前端处理的鲁棒语音识别系统.尽管现有的单通道语音增强技术能够提高混响干扰下的识别率,却未能显著提升宽带非平稳噪声干扰下的系统识别率.为此,本文提出基于听觉掩蔽生成对抗网络的单通道增强方法,...  相似文献   

9.
动态时间规整算法是结合了动态时间规整(DTW)技术和距离测度计算技术的一种非线性规整算法,在语音识别模板匹配中有重要的应用。为此提出一种改进的高效动态时间规整算法,其能有效加快搜索路径的寻找。基于Matlab实现了隐马尔科夫算法、高效动态时间规整算法和改进的高效动态时间规整算法的语音识别系统,同时进行了算法的仿真实验。实验结果表明,基于改进高效动态时间规整算法的训练速度远大于基于隐马尔可夫算法和高效动态时间规整算法的训练速度,而识别率下降很小,对于小词汇量非连续语音识别中高效动态时间规整算法的识别率为97.56%,隐马尔可夫算法的识别率为97.14%,改进高效动态时间规整算法的识别率为96.43%。  相似文献   

10.
语音识别是人机交互的一种重要技术手段。根据实际需要和应用场合的不同,语音识别可以分为孤立词识别和连续语音识别、特定人识别和非特定人识别。语音识别追求的主要指标为高识别率、实时性和大词汇量.  相似文献   

11.
基于HMM/VQ的认人的中等词表连续语音识别   总被引:2,自引:2,他引:0  
本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及其它一些改善识别性能的措施,演示系统能识别特定人的18种英语句式,150个单词,用312个话句(共有2710个单词)进行测试,识别延迟时间为发音时长的62%,发音速度平均为每秒2.32个单词,单词识准率为97.3%。  相似文献   

12.
语音识别的自适应束剪枝方法   总被引:3,自引:1,他引:2  
在语音识别的应用中,如何提高识别的效率性是一个重要的方向。尤其在大词汇表的识别中,庞大的搜索空间带来相应的计算代价,而传统剪枝方法在减少计算量的同时牺牲了识别率。为此引入自适应控制理论,自动调整束宽限定搜索空间在预定的规模。在此基础上,又提出了利用基线系统的平均激活模型音子模型实例作为自适应系统动态参考值的方法,实现启发式的束宽调节。应用此方法的解码器在不损失识别率情况下,计算时间和搜索空间比采用传统剪枝算法下降了55%和71%,显著地提高了解码器的效率。  相似文献   

13.
Recently several speaker adaptation methods have been proposed for deep neural network (DNN) in many large vocabulary continuous speech recognition (LVCSR) tasks. However, only a few methods rely on tuning the connection weights in trained DNNs directly to optimize system performance since it is very prone to over-fitting especially when some class labels are missing in the adaptation data. In this paper, we propose a new speaker adaptation method for the hybrid NN/HMM speech recognition model based on singular value decomposition (SVD). We apply SVD on the weight matrices in trained DNNs and then tune rectangular diagonal matrices with the adaptation data. This alleviates the over-fitting problem via updating the weight matrices slightly by only modifying the singular values. We evaluate the proposed adaptation method in two standard speech recognition tasks, namely TIMIT phone recognition and large vocabulary speech recognition in the Switchboard task. Experimental results have shown that it is effective to adapt large DNN models using only a small amount of adaptation data. For example, recognition results in the Switchboard task have shown that the proposed SVD-based adaptation method may achieve up to 3-6 % relative error reduction using only a few dozens of adaptation utterances per speaker.  相似文献   

14.
汉语语音识别研究面临的一些科学问题   总被引:12,自引:0,他引:12  
杜利民  侯自强 《电子学报》1995,23(10):110-116,61
本文简述汉语语音自动识别从实验室技术过渡到实际商用技术所必须解决的一些科学问题,列举了汉语语音编码的结构特点和规则,强调(1)在汉语音节的声母、韵母层面上的语言模型对语音的识别很有帮助,也会提供文字语言和讲话语言的有用知识;(2)使用区别性导引特征和描述性均匀特征有助于加速语音识别的搜索速度,减少失配和改善对音位变体的细分,本文还着重讨论了在语音信号的声学处理环节提高语音识别鲁棒性的重要问题和途径,文中还提出了标注性学习、提示性猜测的逐步过渡的训练和自适应方法,用于汉语大词汇连续语音识别。  相似文献   

15.
一种基于非线性特征的应力影响下变异语音识别方法   总被引:2,自引:1,他引:1  
王玉伟  张磊  韩纪庆 《信号处理》2002,18(5):484-486
考虑到变异语音产生的非线性特点,本文提出了一种基于TEO能量算子倒谱特征的应力影响下变异语音识别方法。先将语音信号分割成21个不同频带的信号,然后计算TEO能量,最后进行对数运算和离散余弦变换。对航空模拟飞行器中采集的小词表特定人的识别实验,采用非线性分析的基于TEO能量算子倒谱特征的方法,能有效地提高变异语音的识别性能,比传统的基于MFCC特征的方法识别率提高了11.3%。  相似文献   

16.
This paper describes an automatic caption-superimposing system with a new continuous speech recognizer for efficient production of TV programs. The system which we have developed can recognize continuous speech announced in a hall of Japanese `sumo' wrestling and automatically superimpose the recognition results of wrestlers' names and winning tricks as captions on a TV display. The announcements consist of sentences to inform which wrestler has won a match with what kind of winning trick. They are formed out of small-sized vocabulary with a specific uttered style and are spoken nearly at a Japanese `bunsetsu' unit like a phrase only by some specific speakers. We designed the system to work with the following features: (a) recognition of continuous speech with a specific uttered style; (b) an easy change of vocabulary to be recognized; (c) no requirement of pre-registration of any particular utterances; (d) implementation on multi-microprocessors with high computing speed. The proposed recognizer utilizes general intra-`bunsetsu' grammar which is applicable to various recognition tasks, while conventional Japanese continuous speech recognizers use intra-`bunsetsu' grammar which depends on applied recognition tasks. In a recognition experiment on 40 sentences of `sumo' announcements by two speakers, the system attained `bunsetsu' accuracy of 91.0% with quasi-real-time processing  相似文献   

17.
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%.  相似文献   

18.
徐向华  朱杰  郭强 《信号处理》2004,20(5):497-500
针对汉语语音单音节结构的特点,考虑音节间协同发音的现象,本文提出了一种对三音子模型进行分级聚类的方法。与传统的基于决策树的状态聚类算法相比,该方法通过对稀少三音子模型聚类,更充分地利用训练数据,减少稀少三音子对状态聚类的影响,从而提高声学模型的鲁棒性。实验结果表明:大词汇量连续语音识别器采用这种分级聚类方法,不仅可以大大减少模型及其参数的数量,还可使系统识别率有所提高,其中误识率相对于传统的决策树状态聚类系统降低了4.93%。  相似文献   

19.
嵌入式系统正逐渐成为语音识别实际应用的首选平台。该文在嵌入式平台上研究HMM连续语音识别的计算复杂度要素,提出特征系数屏蔽方法和综合剪枝相结合的瘦身计算方法,降低计算复杂度并保持识别率。该方法在嵌入式平台上研究的实验数据表明,HMM连续语音识别瘦身系统与基线系统相比,计算时间从基线系统的100%降低到27.91%,识别率仅从基线系统的89.65%下降到89.41%。  相似文献   

20.
The co-articulation is one of the main reasons that makes the speech recognition difficult. However, the traditional Hidden Markov Models(HMM) can not model the co-articulation, because they depend on the first-order assumption. In this paper, for modeling the co-articulation, a more perfect HMM than traditional first order HMM is proposed on the basis of the authors' previous works(1997, 1998) and they give a method in that this HMM is used in continuous speech recognition by means of multilayer perceptrons(MLP), i.e. the hybrid HMM/MLP method with triple MLP structure. The experimental result shows that this new hybrid HMM/MLP method decreases error rate in comparison with authors' previous works.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号