期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭丽惠何昕张亚昕吕岳《自动化学报》2008,34(4):419-425

针对嵌入式语音识别系统,提出了一种高效的实时语音端点检测算法. 算法以子带频谱熵为语音/噪声的区分特征, 首先将每帧语音的频谱划分成若干个子带, 计算出每个子带的频谱熵, 然后把相继若干帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵, 根据频谱熵的值对输入的语音进行分类. 实验结果表明, 该算法能够有效地区分语音和噪声, 可以显著地提高语音识别系统的性能. 在不同的噪声环境和信噪比条件下具有鲁棒性. 此外, 本文提出的算法计算代价小, 简单易实现, 适合实时嵌入式语音识别系统的应用. 相似文献

2.

基于子带能熵比的语音端点检测算法 总被引：1，自引：0，他引：1

张毅王可佳席兵颜博《计算机科学》2017,44(5):304-307, 319

准确地识别语音端点是语音识别过程中的一个重要步骤。在低信噪比环境下,为更好地增强语音和噪声的区分度,提高语音端点检测系统的准确率,在分析了常规子带谱熵端点检测算法的基础上结合子带能量,提出了一种基于子带能熵比的语音端点检测算法。该算法将子带能量和子带谱熵的比值作为端点检测的重要参数,以此设定阈值进行语音端点的检测。实验表明,该算法快速高效,具有较高的鲁棒性,在较低的信噪比环境下能准确地进行语音端点检测。相似文献

3.

一种强噪音环境中的语音端点检测算法

《电子技术应用》2013,(12):135-137

针对强噪音环境中语音端点检测准确率较低的问题,提出了一种应用在强噪音环境中的语音端点检测算法,结合先验信噪比估计语音增强和改进子带谱熵的算法实现了强噪音中的端点检测。实验结果表明,相比传统端点检测算法,该算法在不同噪声环境下具有较高的鲁棒性,特别是在低信噪比下具有较高的端点检测准确率和较低的误检率。相似文献

4.

多通道助听器语音降噪算法研究

奚吉梁瑞宇王国伟仇晓梅马安骏《计算机工程与应用》2014,50(11):237-240

维纳滤波算法是改善噪声环境下听障患者语音理解度的常用算法之一。针对传统维纳滤波算法噪声谱估计偏差大的问题,提出一种基于改进的多通道维纳滤波算法的助听器语音降噪算法。算法首先结合人耳听觉特性和助听器响度补偿的特点,将语音信号进行Gammatone分解为多路子带信号。然后在每个子带内用基于先验信噪比估计的维纳滤波器进行语音增强处理。最后通过综合子带信号,得到增强的语音。此外,为了改善维纳滤波算法噪声谱估计的问题,提出一种基于包络估计的语音活动检测算法,并用于改善维纳滤波性能。实验结果表明,与传统维纳滤波法相比,该方法能更有效地抑制残留噪声,提高语音可懂度,具有较高的实用价值。相似文献

5.

一种基于自适应谱熵的端点检测改进方法 总被引：1，自引：0，他引：1

王琳李成荣《计算机仿真》2010,27(12)

在低信噪比的环境下,为增强与噪声的区分度,提出了一种适应于低信噪比环境的语音端点检测方法.通过改进语音端点检测的特征参数,更好地区分语音信号与噪声信号,提高在低信噪比环境下的端点检测正确率.基于子带谱熵,引入正值常量对基本谱熵参数进行算法改进,得到改良的负谱熵特征,并结合自适应子带选择方法,得到一种新颖的特征参数--自适应子带常量负谱熵.特征在低信噪比的情况下有较强的抗噪能力,并能够准确地检测出语音端点.实验结果表明,不仅快速有效,具有较强的鲁棒性,而且适合低信噪比的语音端点检测. 相似文献

6.

实时语音端点鲁棒检测

下载免费PDF全文

王景芳《计算机工程与应用》2011,47(20):147-150

提出了一种适应复杂环境下的高效的实时语音端点检测算法,给出了每帧声信号在滤波中的噪声功率谱的推算方法。先将每帧语音的频谱进行迭代维纳滤波,再将它划分成若干个子带并计算出每个子带的频谱熵,然后把相继若干帧的子带频谱熵经过一组中值滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类。实验结果表明,该算法能够有效地区分语音和噪声,可以显著地提高语音识别系统的性能,在不同的噪声环境条件下具有鲁棒性。该算法计算代价小,简单易实现,适合实时语音识别系统的应用。相似文献

7.

低信噪比环境下子带能熵比端点检测算法

沈钰瑞李文钧金伟杰岳克强《计算技术与自动化》2020,39(2):109-113

语音端点检测是将采集到的语音信号从复杂的噪声背景中提取出来，确定每段语音的开始和结束，是后续处理的基础。对于语音端点检测在低信噪比的复杂噪声环境下准确率低的问题，提出了一种多窗谱估计减噪和子带能熵比法结合的语音端点检测算法。该算法通过改进多窗谱谱减法对语音信号进行减噪，在分析了常规谱熵端点检测算法的基础上结合对数能量，以改进的子带能熵比作为阈值进行端点检测。实验表明，该算法在不同环境的低信噪环境下，准确率高，具有较高的鲁棒性。相似文献

8.

基于循环神经网络与子带谱熵法的助听器语音增强

张雨晨《传感技术学报》2020,33(8)

在日常生活中常见的非平稳噪声环境下,现有助听器语音增强算法的降噪性能有所不足。对此,本文提出了一种结合子带谱熵法与双尺度循环神经网络的助听器语音增强算法。该算法将音频划分为16个子频段,各频段的对数功率谱被用作循环神经网络的输入特征,对应的频段增益作为输出特征,并使用子带谱熵法对增益进行修正。实验结果表明,相较于传统语音增强算法,在三类不同的噪声环境中,本文提出算法的平均信噪比分别提高了4.215dB、0.906dB、11.010dB。在FPGA上对该算法进行测试?输出与计算机模拟输出的信噪比差值为 0.117dB?互相关系数为0.9994,并且当时钟频率设置为10MHz时?算法的延时约为2ms,可以满足助听器的使用需求。相似文献

9.

一种基于改进谱熵的语音端点检测方法

李艳成凌飞张培玲《计算机科学》2016,43(Z11):233-236

针对常规谱熵端点检测法在非平稳噪声环境下检测效果差的缺陷,提出了一种基于子带谱熵幅度积参数的语音端点检测方法。该方法利用非平稳信号处理技术将语音信号的时域分析和频域分析相结合,在常规谱熵的基础上计算出子带谱熵,再结合时域中的短时平均幅度进行端点检测。仿真结果表明,与常规谱熵端点检测算法和短时平均幅度算法相比,该方法在各种噪声环境下的检测效果都比较好,鲁棒性增强,其有效性得到验证。相似文献

10.

基于自适应子带功率谱熵的语音端点检测算法 总被引：1，自引：1，他引：1

李金宝屈百达徐宝国周小祥《计算机工程与应用》2007,43(12):57-58,65

在语音处理中,鲁棒性端点检测是语音处理最重要的领域之一,首先提出了一种子带功率谱熵(SPSE)的特征参数,然后,该参数结合Wuetal提出的自适应子带方法(ABS);发现了一种新颖的鲁棒特征参数-自适应子带谱熵(ASPSE),它能成功地在不同的背景噪声下检测语音端点。实验结果表明,在不同的噪声环境和信噪比下,ASPSE参数非常有效,而且该算法优于其它算法。相似文献

11.

Robust speech recognition in noisy environments based on subband spectral centroid histograms

Gajic B. Paliwal K.K. 《IEEE transactions on audio, speech, and language processing》2006,14(2):600-608

We investigate how dominant-frequency information can be used in speech feature extraction to increase the robustness of automatic speech recognition against additive background noise. First, we review several earlier proposed auditory-based feature extraction methods and argue that the use of dominant-frequency information might be one of the major reasons for their improved noise robustness. Furthermore, we propose a new feature extraction method, which combines subband power information with dominant subband frequency information in a simple and computationally efficient way. The proposed features are shown to be considerably more robust against additive background noise than standard mel-frequency cepstrum coefficients on two different recognition tasks. The performance improvement increased as we moved from a small-vocabulary isolated-word task to a medium-vocabulary continuous-speech task, where the proposed features also outperformed a computationally expensive auditory-based method. The greatest improvement was obtained for noise types characterized by a relatively flat spectral density. 相似文献

12.

抗噪声语音识别及语音增强算法的应用 总被引：1，自引：0，他引：1

汤玲戴斌《计算机仿真》2006,23(9):80-82,143

提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降，为了让语音识别系统在含噪的环境下获得令人满意的工作性能，该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理，同时结合语音增强方法对特征进行处理，最后得到鲁棒语音特征。通过4种不同试验结果分析表明，将这种方法用于抗噪声分析可以提高系统的抗噪声能力；同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。相似文献

13.

Auditory driven subband speech enhancement for automatic recognition of noisy speech

Navneet Upadhyay Hamurabi Gamboa Rosales 《International Journal of Speech Technology》2016,19(4):869-880

Speech recognizers achieve high recognition accuracy under quiet acoustic environments, but their performance degrades drastically when they are deployed in real environments, where the speech is degraded by additive ambient noise. This paper advocates a two phase approach for robust speech recognition in such environment. Firstly, a front end subband speech enhancement with adaptive noise estimation (ANE) approach is used to filter the noisy speech. The whole noisy speech spectrum is portioned into eighteen dissimilar subbands based on Bark scale and noise power from each subband is estimated by the ANE approach, which does not require the speech pause detection. Secondly, the filtered speech spectrum is processed by the non parametric frequency domain algorithm based on human perception along with the back end building a robust classifier to recognize the utterance. A suite of experiments is conducted to evaluate the performance of the speech recognizer in a variety of real environments, with and without the use of a front end speech enhancement stage. Recognition accuracy is evaluated at the word level, and at a wide range of signal to noise ratios for real world noises. Experimental evaluations show that the proposed algorithm attains good recognition performance when signal to noise ratio is lower than 5 dB. 相似文献

14.

含噪语音实时迭代维纳滤波 总被引：1，自引：1，他引：0

下载免费PDF全文

王景芳《计算机工程与应用》2011,47(19):132-135

针对传统去噪方法在强背景噪声情况下,提取声音信号的能力变弱甚至失效与对不同噪声环境适应性差,提出了迭代维纳滤波声音信号特征提取方法。给出了语音噪声频谱与功率谱信噪比迭代更新机制与具体实施方案。实验仿真表明,该算法能有效地去噪滤波,显著地提高语音识别系统性能,且在不同的噪声环境和信噪比条件下具有鲁棒性。该算法计算代价小,简单易实现,适用于嵌入式语音识别系统。相似文献

15.

一种鲁棒的基于小波变换的语音参数提取算法 *

吴翔唐焕华刘锦高《计算机应用研究》2008,25(10):2984-2986

提出了一种基于小波变换的新型语音参数提取算法 ,提高语音识别系统对环境噪声的鲁棒性。由于引入了多分辨率小波分析技术 ,识别既在高频提供高的频率分辨又在低频提供高的时间分辨率。这样 ,提出的改进算法在语音词汇的识别更准确的同时 ,还大大简化了计算。将该算法和传统提取 MFCC系数的算法进行了比较,实验结果表明 ,利用小波计算语音特征具有更优的性能。相似文献

16.

频域动态特征提取中的多层信道正规化

王东朱小燕刘盈《软件学报》2003,14(9):1523-1529

语音识别领域已经取得了稳步发展并出现了众多实用系统,但众所周知,今天的识别技术还远没有达到要求,而"鲁棒性"问题是系统性能提高的一个主要障碍.集中讨论了一种对抗语音识别系统脆弱性的通行方法--信道正规化技术,提出了一种新的正规化策略--多层信道正规化MLCN(multi-layer channel normalization)新的算法应用递归补偿算法,在频谱域和倒谱域两层上进行正规化,降低噪音和去除信道畸变,从而为后续识别过程提供更鲁棒的特征参数.在此基础上,探讨了一种新的语音识别特征参数的提取-频域动态倒谱系数,由于MLCN的引入,频域的动态信息被恰当地集成到最终的特征向量中.在gallina系统中的实验证明了这种新方法的有效性. 相似文献

17.

结合残差相位的MFCC特征改进算法

俸云景新幸《计算机仿真》2009,26(10):327-329,343

美尔频率倒谱参数(Mel frequency cepstral coefficient,MFCC)仿真了人耳的听觉特性,在语音识别实际应用中取得了比较高的识别率。为了更进一步完善系统以提高系统的识别率,提出一种将MFCC和残差相位相结合的方法进行语音识别。将传统的基于MFCC的语音识别效果,与基于MFCC和残差相位相结合的语音识别效果进行比较。通过在MATLAB环境下进行仿真实验得出理想结论。利用MFCC和残差相位相结合的识别率高于MFCC的系统的识别率。所提出的改进算法更好的完善了识别系统,获得了更高的语音识别率。相似文献

18.

Efficient Noise Robust Feature Extraction Algorithms for Distributed Speech Recognition (DSR) Systems

Bojan Kotnik Damjan Vlaj Bogomir Horvat 《International Journal of Speech Technology》2003,6(3):205-219

The evolution of robust speech recognition systems that maintain a high level of recognition accuracy in difficult and dynamically-varying acoustical environments is becoming increasingly important as speech recognition technology becomes a more integral part of mobile applications. In distributed speech recognition (DSR) architecture the recogniser's front-end is located in the terminal and is connected over a data network to a remote back-end recognition server. The terminal performs the feature parameter extraction, or the front-end of the speech recognition system. These features are transmitted over a data channel to the remote back-end recogniser. DSR provides particular benefits for the applications of mobile devices such as improved recognition performance compared to using the voice channel and ubiquitous access from different networks with a guaranteed level of recognition performance. A feature extraction algorithm integrated into the DSR system is required to operate in real-time as well as with the lowest possible computational costs.In this paper, two innovative front-end processing techniques for noise robust speech recognition are presented and compared, time-domain based frame-attenuation (TD-FrAtt) and frequency-domain based frame-attenuation (FD-FrAtt). These techniques include different forms of frame-attenuation, improvement of spectral subtraction based on minimum statistics, as well as a mel-cepstrum feature extraction procedure. Tests are performed using the Slovenian SpeechDat II fixed telephone database and the Aurora 2 database together with the HTK speech recognition toolkit. The results obtained are especially encouraging for mobile DSR systems with limited sizes of available memory and processing power. 相似文献