首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种基于自适应谱熵的端点检测改进方法   总被引:1,自引:0,他引:1  
在低信噪比的环境下,为增强与噪声的区分度,提出了一种适应于低信噪比环境的语音端点检测方法.通过改进语音端点检测的特征参数,更好地区分语音信号与噪声信号,提高在低信噪比环境下的端点检测正确率.基于子带谱熵,引入正值常量对基本谱熵参数进行算法改进,得到改良的负谱熵特征,并结合自适应子带选择方法,得到一种新颖的特征参数--自适应子带常量负谱熵.特征在低信噪比的情况下有较强的抗噪能力,并能够准确地检测出语音端点.实验结果表明,不仅快速有效,具有较强的鲁棒性,而且适合低信噪比的语音端点检测.  相似文献   

2.
基于子带能熵比的语音端点检测算法   总被引:1,自引:0,他引:1  
张毅  王可佳  席兵  颜博 《计算机科学》2017,44(5):304-307, 319
准确地识别语音端点是语音识别过程中的一个重要步骤。在低信噪比环境下,为更好地增强语音和噪声的区分度,提高语音端点检测系统的准确率,在分析了常规子带谱熵端点检测算法的基础上结合子带能量,提出了一种基于子带能熵比的语音端点检测算法。该算法将子带能量和子带谱熵的比值作为端点检测的重要参数,以此设定阈值进行语音端点的检测。实验表明,该算法快速高效,具有较高的鲁棒性,在较低的信噪比环境下能准确地进行语音端点检测。  相似文献   

3.
改进的语音端点检测技术   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提高低信噪比下语音端点检测的性能,提出了一种改进的基于谱减法和自适应子带谱熵的语音端点检测方法。该方法先利用谱减法对带噪语音消除加性噪声,及时更新背景噪声估计,再对增强后的语音信号利用改进的自适应子带谱熵进行端点检测。实验结果表明,该方法具有良好的检测性能,相对传统方法提高了端点检测的准确率,在低信噪比环境下仍能比较准确地检测到语音的端点。  相似文献   

4.
语音端点检测是将采集到的语音信号从复杂的噪声背景中提取出来,确定每段语音的开始和结束,是后续处理的基础。对于语音端点检测在低信噪比的复杂噪声环境下准确率低的问题,提出了一种多窗谱估计减噪和子带能熵比法结合的语音端点检测算法。该算法通过改进多窗谱谱减法对语音信号进行减噪,在分析了常规谱熵端点检测算法的基础上结合对数能量,以改进的子带能熵比作为阈值进行端点检测。实验表明,该算法在不同环境的低信噪环境下,准确率高,具有较高的鲁棒性。  相似文献   

5.
李艳  成凌飞  张培玲 《计算机科学》2016,43(Z11):233-236
针对常规谱熵端点检测法在非平稳噪声环境下检测效果差的缺陷,提出了一种基于子带谱熵幅度积参数的语音端点检测方法。该方法利用非平稳信号处理技术将语音信号的时域分析和频域分析相结合,在常规谱熵的基础上计算出子带谱熵,再结合时域中的短时平均幅度进行端点检测。仿真结果表明,与常规谱熵端点检测算法和短时平均幅度算法相比,该方法在各种噪声环境下的检测效果都比较好,鲁棒性增强,其有效性得到验证。  相似文献   

6.
《计算机工程》2018,(1):317-321
为在飞行驾驶舱噪声环境下准确判定飞行员语音端点,提出一种鲁棒语音端点检测方法。使用最优改进对数谱幅度估计语音增强算法进行初步语音降噪,通过Teager能量算子进一步滤除残余噪声,并将降噪后语音短时能量与子带谱熵的比值作为双门限判决参数,检测飞行员语音起止点。实验结果表明,与基于能量参数或频谱熵参数的语音端点检测方法相比,该方法能有效提高检测正确率。  相似文献   

7.
《电子技术应用》2013,(12):135-137
针对强噪音环境中语音端点检测准确率较低的问题,提出了一种应用在强噪音环境中的语音端点检测算法,结合先验信噪比估计语音增强和改进子带谱熵的算法实现了强噪音中的端点检测。实验结果表明,相比传统端点检测算法,该算法在不同噪声环境下具有较高的鲁棒性,特别是在低信噪比下具有较高的端点检测准确率和较低的误检率。  相似文献   

8.
为了提高低信噪比环境下语音增强的效果、算法的鲁棒性.在基于维纳滤波算法的基础上,结合基于频域特征的语音端点检查算法,提出了一种新的语音增强算法.端点检测算法使用小波包ERB子带的谱熵和改进的频域能量的能熵比法.其中,小波包ERB子带的谱熵考虑了人耳听觉掩蔽模型和语音与噪声信号之间的频率分布之间的不同;频域能量利用了有语音帧和无语音帧的能量不同.维纳滤波算法实时采集语音数据并使用新的参数来区别无语音段和有语音段,并在无语音段平滑更新噪声谱.实验结果表明,该端点检测算法能够很好的区分有语音段和无语音段,这就使得在低信噪比的情况下语音增强效果得到了提升,同时算法的鲁棒性和实时性也得到了保障.在与其他两种算法对比中,得到了更好的语音增强效果.  相似文献   

9.
一种新的基于信息熵的带噪语音端点检测方法   总被引:5,自引:0,他引:5  
严剑峰  付宇卓 《计算机仿真》2005,22(11):117-120
在自动语音识别和变速率语音编码技术中,语音端点检测是前端处理的一个重要环节.而在实际的噪声环境下,一些传统的端点检测方法已不适用.该文提出了一种新的基于信息熵的语音端点检测方法,该方法通过对语音信号的短时功率谱进行谱分析,由此构造熵函数作为端点检测的特征参数.实验结果表明,该方法在噪声环境下性能优于传统的基于能量的端点检测方法.而且相对于基于频谱谱熵的算法,在低信噪比(SNR〈0dB)情况下,该文方法有更好的鲁棒性,可使平均检测精确度进一步提高约5%.  相似文献   

10.
为了提高语音端点检测算法的鲁棒性,提出了一种在不同信噪比下采用不同语音特征参数的端点检测算法.对含噪语音进行基于背景噪声能量估计的信噪比估计,根据估计的信噪比大小选择不同的特征参数来进行端点检测,在高信噪比下采用传统的语音短时能量和过零率,在低信噪比下采用基音周期、高频与全频带能量比和谱失真,即算法能根据信噪比的大小来自适应调整检测方法.实验结果表明,该方法具有良好的鲁棒性,在不同的信噪比下检测的准确率都很高.  相似文献   

11.
屈百达  李金宝  徐宝国 《计算机应用》2007,27(10):2547-2548
在噪声环境语音识别中,如何提取鲁棒性特征参数是其核心问题之一,首先提出了一种二维根倒谱特征参数,然后,该参数结合基于最小方差无失真响应谱估计的特征参数(PMCC)。最终,发现了一种新颖的鲁棒特征参数,在不同的信噪比下,它能成功地被用于连续语音识别中。试验结果表明,在不同的噪声环境和信噪比下,二维PMCC鲁棒特征参数比传统Mel频率倒谱系数(MFCC)和感知线性预测(PLP)有更好的识别率。  相似文献   

12.
提出了一种基于人类听觉系统的多频带非线性谱减法来进行语音增强。根据人耳听觉特性,将含噪语音信号分在24个临界频带内,由各频带的不同信噪比来确定对应的谱减参数值。实验结果证明,在相同实验条件下,与功率谱减法(PSS)、非线性谱减法(NSS)和传统多频带谱减法(MBSS)相比,该方法增强后的语音信号具有更高的输出信噪比;能更好地消除背景噪声,抑制残留噪声;增强后的语音具有更好的可懂度和清晰度。  相似文献   

13.
为了提高电能质量复合扰动(PQMD)信号的去噪指标,实现扰动信号特征的准确检测,提出一种自适应多尺度SVD(Adaptive Multi-resolution Singular Value Decomposition,AMSVD)去噪新算法及数学框架。该算法首先分析了高斯白噪声奇异值分布情况及多尺度SVD消噪原理,针对不同尺度下的噪声近似与细节信号奇异值差值规律,确定出最佳消噪尺度的约束条件,由此实现噪声先验信息未知的自适应消噪方法。研究结果表明,在对不同噪声方差下的电能质量复合扰动去噪处理中,AMSVD消噪效果优于其他5种方法。为了进一步验证AMSVD算法去噪后特征量检测的准确性,采用希尔伯特黄变换(HHT)提取扰动特征信息,仿真结果表明该算法具有可行性和鲁棒性。  相似文献   

14.
In this paper we introduce a robust feature extractor, dubbed as robust compressive gammachirp filterbank cepstral coefficients (RCGCC), based on an asymmetric and level-dependent compressive gammachirp filterbank and a sigmoid shape weighting rule for the enhancement of speech spectra in the auditory domain. The goal of this work is to improve the robustness of speech recognition systems in additive noise and real-time reverberant environments. As a post processing scheme we employ a short-time feature normalization technique called short-time cepstral mean and scale normalization (STCMSN), which, by adjusting the scale and mean of cepstral features, reduces the difference of cepstra between the training and test environments. For performance evaluation, in the context of speech recognition, of the proposed feature extractor we use the standard noisy AURORA-2 connected digit corpus, the meeting recorder digits (MRDs) subset of the AURORA-5 corpus, and the AURORA-4 LVCSR corpus, which represent additive noise, reverberant acoustic conditions and additive noise as well as different microphone channel conditions, respectively. The ETSI advanced front-end (ETSI-AFE), the recently proposed power normalized cepstral coefficients (PNCC), conventional MFCC and PLP features are used for comparison purposes. Experimental speech recognition results demonstrate that the proposed method is robust against both additive and reverberant environments. The proposed method provides comparable results to that of the ETSI-AFE and PNCC on the AURORA-2 as well as AURORA-4 corpora and provides considerable improvements with respect to the other feature extractors on the AURORA-5 corpus.  相似文献   

15.
李强  陈浩  陈丁当 《计算机应用》2016,36(11):3212-3216
针对现有基于隐马尔可夫模型(HMM)的语音激活检测(VAD)算法对噪声的跟踪性能不佳的问题,提出采用Baum-Welch算法对具有不同特性的噪声进行训练,并生成相应噪声模型,建立噪声库的方法。在语音激活检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型;同时,为了适应语音信号的实时处理,降低了语音参数提取的复杂度,并对判决阈值提出改进,以保证语音信号帧间的相关性。在不同噪声环境下对改进算法进行性能测试并与自适应多速率编码(AMR)标准、国际电信联盟电信标准分局(ITU-T)的G.729B标准比较,测试结果表明,改进算法在实时语音信号处理中能够有效提高检测的准确率及噪声跟踪能力。  相似文献   

16.
The evolution of robust speech recognition systems that maintain a high level of recognition accuracy in difficult and dynamically-varying acoustical environments is becoming increasingly important as speech recognition technology becomes a more integral part of mobile applications. In distributed speech recognition (DSR) architecture the recogniser's front-end is located in the terminal and is connected over a data network to a remote back-end recognition server. The terminal performs the feature parameter extraction, or the front-end of the speech recognition system. These features are transmitted over a data channel to the remote back-end recogniser. DSR provides particular benefits for the applications of mobile devices such as improved recognition performance compared to using the voice channel and ubiquitous access from different networks with a guaranteed level of recognition performance. A feature extraction algorithm integrated into the DSR system is required to operate in real-time as well as with the lowest possible computational costs.In this paper, two innovative front-end processing techniques for noise robust speech recognition are presented and compared, time-domain based frame-attenuation (TD-FrAtt) and frequency-domain based frame-attenuation (FD-FrAtt). These techniques include different forms of frame-attenuation, improvement of spectral subtraction based on minimum statistics, as well as a mel-cepstrum feature extraction procedure. Tests are performed using the Slovenian SpeechDat II fixed telephone database and the Aurora 2 database together with the HTK speech recognition toolkit. The results obtained are especially encouraging for mobile DSR systems with limited sizes of available memory and processing power.  相似文献   

17.
抗噪声语音识别及语音增强算法的应用   总被引:1,自引:0,他引:1  
汤玲  戴斌 《计算机仿真》2006,23(9):80-82,143
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降,为了让语音识别系统在含噪的环境下获得令人满意的工作性能,该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理,同时结合语音增强方法对特征进行处理,最后得到鲁棒语音特征。通过4种不同试验结果分析表明,将这种方法用于抗噪声分析可以提高系统的抗噪声能力;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。  相似文献   

18.
This paper proposes a new speech detection method by recurrent neural fuzzy network in variable noise-level environments. The detection method uses wavelet energy (WE) and zero crossing rate (ZCR) as detection parameters. The WE is a new and robust parameter, and is derived using wavelet transformation. It can reduce the influences of different types of noise at different levels. With the inclusion of ZCR, we can robustly and effectively detect speech from noise with only two parameters. For detector design, a singleton-type recurrent fuzzy neural network (SRNFN) is proposed. The SRNFN is constructed by recurrent fuzzy if-then rules with fuzzy singletons in the consequences, and the recurrent property makes them suitable for processing speech patterns with temporal characteristics. The learning ability of SRNFN helps avoid the need of empirically determining a threshold in normal detection algorithms. Experiments with different types of noises and various signal-to noise ratios (SNRs) are performed. The results show that using the WE and ZCR parameters-based SRNFN, a pretty good performance is achieved. Comparisons with another robust detection method, the refined time–frequency-based method, and other detectors have also verified the performance of the proposed method.  相似文献   

19.
由于耳语音信噪比较低,采用传统的算法进行耳语音端点检测存在正确率低、抗噪性能差等问题。提出了一种基于希尔伯特-黄变换瞬时能频值的耳语音端点检测的算法。运用希尔伯特-黄变换,分离出耳语音的瞬时幅值与频率,提取基于时间-能量-频率的特征参数瞬时能频值,利用该特征值对耳语音和噪声进行区分,进行端点检测。对700个信噪比为2~10 dB的耳语音测试样本进行仿真实验,该算法检测的起点正确率与终点正确率均高于零能积法、熵法以及拟和特征法。实验表明,该算法适应于多种非平稳噪声环境,能较好地检测耳语音的端点。  相似文献   

20.
This paper investigates a new front-end processing that aims at improving the performance of speech recognition in noisy mobile environments. This approach combines features based on conventional Mel-cepstral Coefficients (MFCCs), Line Spectral Frequencies (LSFs) and formant-like (FL) features to constitute robust multivariate feature vectors. The resulting front-end constitutes an alternative to the DSR-XAFE (XAFE: eXtended Audio Front-End) available in GSM mobile communications. Our results showed that for highly noisy speech, using the paradigm that combines these spectral cues leads to a significant improvement in recognition accuracy on the Aurora 2 task.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号