首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
本文讨论了最小方差无失真响应建模方法,并与线性预测方法进行了比较,比较发现最小方差无失真响应滤波器能提供一个更好的原始语音包络。然后在研究ICA原理及FastICA快速算法的基础上,将MVDR参数提取方法与独立分量分析方法相结合,并与传统语音识别方法在有噪声和无噪声的情况下进行了比较,进而对识别率、计算时间等结果进行了分析。MVDR参数提取方法可以提高语音识别系统的识别率,但是会增加平均识别时间;而经过ICA特征变换后的语音识别系统具有较好的鲁棒性。  相似文献   

2.
一种基于调制谱特征的带噪语音识别方法   总被引:1,自引:0,他引:1  
在语音识别过程中,提取语音特征参数是重要的步骤之一。为了提高整个识别系统的性能,要求所选语音参数应具有较好的鲁棒性。文章在时频分析理论基础上,设计了一种基于语音调制谱的特征参数。这种参数利用了语音调制谱的时频集聚性并通过对语音调制谱作适当的滤波及归一化处理以削弱其对加性噪声和通道失真等干扰的敏感性。实验结果表明,该参数在提高语音识别系统的的抗噪性方面有明显的贡献。  相似文献   

3.
经典MVDR算法在GPS压制式干扰环境下的表现出色,为分析MVDR算法在欺骗式干扰环境下的性能,根据该环境下信号、干扰的功率都淹没于噪声功率之下的特点,推导出阵列天线采用MVDR算法后的方向图增益和输出信干噪比的近似表达式。通过仿真实验,分析验证了MVDR算法在欺骗式干扰环境下失去了抑制干扰能力的原因,并讨论了影响阵列输出信干噪比变化的因素及其随各因素变化的规律。  相似文献   

4.
一种新的基于信息熵的带噪语音端点检测方法   总被引:5,自引:0,他引:5  
严剑峰  付宇卓 《计算机仿真》2005,22(11):117-120
在自动语音识别和变速率语音编码技术中,语音端点检测是前端处理的一个重要环节.而在实际的噪声环境下,一些传统的端点检测方法已不适用.该文提出了一种新的基于信息熵的语音端点检测方法,该方法通过对语音信号的短时功率谱进行谱分析,由此构造熵函数作为端点检测的特征参数.实验结果表明,该方法在噪声环境下性能优于传统的基于能量的端点检测方法.而且相对于基于频谱谱熵的算法,在低信噪比(SNR〈0dB)情况下,该文方法有更好的鲁棒性,可使平均检测精确度进一步提高约5%.  相似文献   

5.
针对抗噪声语音特征技术和基于MFCC特征的模型补偿技术在低信噪比时识别率不高的缺点,将抗噪声语音特征和模型补偿结合起来,提出了一种基于单边自相关序列(One—sided autocorrelation,OSA)MFCC特征的模型补偿噪声语音识别方法,以提高语音识别系统在低信噪比时的性能。对0~9十个英文数字和NOISEX92中的白噪声、F16噪声和FACTORY噪声的识别实验结果表明.本文提出的识别方法可以有效地提高OSA—MFCC识别器在噪声环境中的识别率,并且在低信噪比时其性能明显优于经过相同补偿处理的MFCC识别器。  相似文献   

6.
数字信号处理技术的迅速发展,为语音识别的实时实现提供了可能。采用TI公司的DSP芯片TMS320VC5409,建立一个汉语数字的语音实时识别系统。DSP的多通道缓冲串口与模数转换芯片的连接实现语音信号的采样;分别使用64k的程序和数据存储空间;系统的输出是使用TL16C550实现异步通信串口并使之与计算机RS232串口连接以观察识别结果。系统运行算法主要有字端点检测、特征提取和识别算法。实验结果表明,该系统基本能实现预期识别目标。  相似文献   

7.
针对非特定人语音识别中的声道长度归一化问题,首先研究一种能够去牛基音激励的,基于自相关估计的共振峰(Formart) 频谱恢复方法,说明了不同说话人发同一元音时的频谱互为尺度化的关系,以及它们与同一说话人发不同元音时频谱的差别,然后结合具有尺度不变性的Mellin变换,提出了一种适用于非特定人的语音特征提取方法,在实难中,对从非特定人收集的20个汉语元音,分别提取了其FFT倒谱,Mel倒谱,FFT-Mellin倒谱及本文Formant-Mellin倒谱,并用一种很直观的F-roato分辨率准则进行了性能评价,结果表明,无论是对纯净的,还是对带附加白噪声的发音样本,本文由共振峰恢复和Mellin变换相结合得到的语音特征都具有较高的分辨率。  相似文献   

8.
在人机语音交互系统中,机器不仅要具有理解人类语音的能力,还应当具有识别说话人情感的能力.本文提出了基于高斯混合模型(GMM)的序列分类和识别的改进方法,并将该方法引入到语音情感识别的研究中.本文提出了观测值次序均衡的方法.实验结果证明这种新的方法有效地提高了语音情感识别的准确率.  相似文献   

9.
抗噪声语音识别及语音增强算法的应用   总被引:1,自引:0,他引:1  
汤玲  戴斌 《计算机仿真》2006,23(9):80-82,143
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降,为了让语音识别系统在含噪的环境下获得令人满意的工作性能,该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理,同时结合语音增强方法对特征进行处理,最后得到鲁棒语音特征。通过4种不同试验结果分析表明,将这种方法用于抗噪声分析可以提高系统的抗噪声能力;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。  相似文献   

10.
基于小波变换的鲁棒性语音特征提取新方法   总被引:3,自引:0,他引:3  
张君昌  李艳艳 《计算机仿真》2010,27(8):355-358,362
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降。为了能得到无噪音的语音识别特性,让语音识别系统在含噪的环境下获得令人满意的工作性能,根据人听觉特性提出了一种鲁棒语音特征提取方法。将小波变换和MFCC算法相结合,在MFCC的前端用小波包变换代替FFT和Mel滤波器组,同时在后端用临界小波变换代替DCT,最后得到鲁棒语音特征。通过实验结果分析表明,将方法用于抗噪声分析可以提高系统的抗噪声能力;同时特征的处理方法对不同噪声有很好的适应性。  相似文献   

11.
稳健语音识别技术研究   总被引:4,自引:0,他引:4  
文章在简单叙述稳健语音识别技术产生的背景后,着重介绍了现阶段国内外有关稳健语音识别的主要技术、研究现状及未来发展方向。首先简述了引起语音质量恶化、影响语音识别系统稳健性的干扰源。然后介绍了抗噪语音特征的提取、声学预处理、麦克风阵列及基于人耳的听觉处理等技术路线及发展现状。最后讨论了稳健语音识别技术未来的发展方向。  相似文献   

12.
提出了一种基于邻接空间模型的鲁棒语音识别方法,解决测试集和训练集差别导致的识别正确率过低的问题.在以声学模型为中心的邻接空间中计算贝叶斯预测概率密度值,作为观察概率输出分值进行识别.实验表明,相对于传统语音识别方法,鲁棒识别方法在保证干净测试集的识别率没有很大下降的前提下,对含噪测试集的识别率获得了较大的提高.  相似文献   

13.
基于语音增强失真补偿的抗噪声语音识别技术   总被引:1,自引:0,他引:1  
本文提出了一种基于语音增强失真补偿的抗噪声语音识别算法。在前端,语音增强有效地抑制背景噪声;语音增强带来的频谱失真和剩余噪声是对语音识别不利的因素,其影响将通过识别阶段的并行模型合并或特征提取阶段的倒谱均值归一化得到补偿。实验结果表明,此算法能够在非常宽的信噪比范围内显著的提高语音识别系统在噪声环境下的识别精度,在低信噪比情况下的效果尤其明显,如对-5dB的白噪声,相对于基线识别器,该算法可使误识率下降67.4%。  相似文献   

14.
基于贝叶斯方法的鲁棒语音切分   总被引:1,自引:0,他引:1  
在基于隐马尔科夫模型的语音切分基础上,融合了不受噪声干扰的先验切分模型,提出了基于贝叶斯方法的语间切分方法。在贝叶斯切分方法的框架内,作者首先对语音序列进行了变换,将由切分点构成的序列变为由音节长度构成的序列。然后,假设音节长度序列符合一阶马尔科夫过程,经过归一化处理后,求出了切分的先验概率公式,得到了贝叶斯方法的切分模型。在噪声环境下的实验证明,由于切分模型独立于噪声,对在噪声环境下声学模型的失配提供了很好的补偿,使得语音切分的鲁棒性大大增加。  相似文献   

15.
为了提高语音识别系统的鲁棒性,提出一种基于GBFB(spectro-temporal Gabor filter bank)的声学特征提取方法,并通过分块PCA算法对高维的GBFB特征进行降维处理,最后在多个相同噪音环境对GBFB特征以及常用的GFCC,MFCC,LPCC等特征进行抗噪性能对比,与GFCC相比GBFB特征的识别率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9个分贝。实验结果表明,在噪音环境下与传统的GFCC、MFCC以及LPCC等特征相比GBFB特征有更优越的鲁棒性。  相似文献   

16.
基于乘积HMM的双模态语音识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。  相似文献   

17.
关勇  李鹏  刘文举  徐波 《自动化学报》2009,35(4):410-416
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性.  相似文献   

18.
The evolution of robust speech recognition systems that maintain a high level of recognition accuracy in difficult and dynamically-varying acoustical environments is becoming increasingly important as speech recognition technology becomes a more integral part of mobile applications. In distributed speech recognition (DSR) architecture the recogniser's front-end is located in the terminal and is connected over a data network to a remote back-end recognition server. The terminal performs the feature parameter extraction, or the front-end of the speech recognition system. These features are transmitted over a data channel to the remote back-end recogniser. DSR provides particular benefits for the applications of mobile devices such as improved recognition performance compared to using the voice channel and ubiquitous access from different networks with a guaranteed level of recognition performance. A feature extraction algorithm integrated into the DSR system is required to operate in real-time as well as with the lowest possible computational costs.In this paper, two innovative front-end processing techniques for noise robust speech recognition are presented and compared, time-domain based frame-attenuation (TD-FrAtt) and frequency-domain based frame-attenuation (FD-FrAtt). These techniques include different forms of frame-attenuation, improvement of spectral subtraction based on minimum statistics, as well as a mel-cepstrum feature extraction procedure. Tests are performed using the Slovenian SpeechDat II fixed telephone database and the Aurora 2 database together with the HTK speech recognition toolkit. The results obtained are especially encouraging for mobile DSR systems with limited sizes of available memory and processing power.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号