首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 315 毫秒
1.
针对短时TEO能量算法抗噪性差的缺点,提出了一种强噪声下的端点检测新算法.该算法在短时TEO能量端点检测的基础上,增加Mel倒谱距离判断环节,采用先粗判后精判的互补性两级判决机制.首先利用强抗噪性Mel倒谱距离进行端点粗判,然后再利用体现语音信号时域特征与语音共振峰特性的短时TEO能量进行端点精判.实验表明,在信噪比相对较低的环境下,该改进算法与传统的双门限法和短时TEO能量相比,在没有增加运算复杂度的同时提高了检测系统的准确度.  相似文献   

2.
Teager能量算子是近年来提出的非线性方法,具有跟踪时变信号的特点,该文结合该算子和经验模态分解方法,提出一种新的语音端点检测算法,用于寻找合理的语音起始和终止端点。该算法利用经验模态分解,提出本征模态函数的有效性筛选条件,通过筛选本征模态函数,使得该算法能够处理含噪语音信号,同时分解所得单模态特性正好满足TEO算子对单成份能量跟踪的要求,最后利用Hilbert变换解决了可能存在的模态混叠问题。经过这些处理,算法能够处理语音信号中清音段的端点标识,比直接TEO、双门限法效果好。通过大量实验验证了该算法的有效性。  相似文献   

3.
一种改进的基于倒谱特征的带噪语音端点检测方法   总被引:3,自引:0,他引:3  
沈红丽  曾毓敏  王鹏 《通信技术》2009,42(2):156-158
环境噪声是语音识别和说话人识别性能下降的原因之一,端点检测作为其关键技术之一,性能优劣在某种程度上决定了识别率的高低。文章提出一种改进的基于倒谱特征的带噪语音端点检测方法。在传统基于倒谱距离的算法基础上,该算法进一步综合利用短时过零率和短时能量作为最终判决的门限。实验结果表明,该方法计算效率较高,低信噪比下有较好的检测性能。  相似文献   

4.
噪声环境是语音识别性能下降的原因之一,端点检测作为其关键技术,其性能优劣在某种程度上决定了识别率的高低。提出一种改进的基于倒谱特征的带噪端点检测方法。在传统基于倒谱距离的算法上综合利用短时过零率和短时能量多特征作为最终判决的门限。实验结果表明,该方法计算效率较高,低信噪比下有较好的检测性能。  相似文献   

5.
应用于语音识别片上系统的语音检测算法   总被引:2,自引:0,他引:2  
语音识别技术的研究已经进入实用化阶段,而实用化语音识别系统中的一个关键技术就是可靠的语音检测。本文提出了一种基于有限状态机模型的实时语音检测算法(FSM-SD)。采用对数最大似然判决帧能量检测器和过零率检测器控制各状态之间的跳转关系。针对语音识别中的MFCC(Mel频标倒谱系数)和LPCC(线性预测倒谱参数)特征提取过程,分别得到两种不同的帧能量计算方法。将FSM-SD应用到在OAK DSP上实现的小词表汉语语音识别系统,通过实验验证了其对系统识别性能和噪声稳健性的有效保证。  相似文献   

6.
基于信号递归度分析的语音端点检测方法   总被引:1,自引:0,他引:1  
针对低信噪比、非平稳噪声环境下的语音端点检测,提出了一种基于语音/噪声的信源系统动力学特性差异,通过分析信号递归度变化,设定双门限判定语音端点的方法。和传统的能量法、倒谱距离测度法比较,准确率较高。为语音特征提取和识别研究提供了新的途径。  相似文献   

7.
《信息技术》2017,(2):137-140
语音识别中端点检测是很重要的环节,检测的好坏直接影响到后面的语音识别的效果。传统使用的短时能量与短时过零率方法在信噪比较低时,不能有效地检测语音端点,检测准确率较低。利用Teager能量算子的非线性特性,能在抑制背景噪声的同时对平稳和不平稳信号有不同程度的衰减。因此,文中提出一种基于Teager能量算子的端点检测方法,并进行改进检测算法。经过实验证明,改进的算法与短时能量检测的结果相比,该算法在信噪比较低的情况下,能够比较准确地检测出语音的起始端点,同时语音端点检测准确率比较高,验证了该算法的有效性。  相似文献   

8.
语音信号互信息估计的非线性搜索算法及识别应用   总被引:6,自引:0,他引:6  
基于互信息理论的语音识别方法不仅考虑了语音信号的时变分布特征,并且考虑了语音信号的统计分布特征,能有效地提高同类模式的凝聚度,减少非同类模式间的耦合性,在语音识别实验和实际应用中反映出良好的识别精度和很高的运行效率,与其它方法相比更适合嵌入式系统的语音识别应用。本文提出了一种互信息估计的非线性搜索算法,这一算法能够有效地处理语音信号时变分布特征的非线性波动,进一步提高语音模式互信息匹配的精度。  相似文献   

9.
建立了一种基于自组织神经网络的语音识别系统。对语音信号进行了预处理,提取了语音信号的线性预测系数、线性预测倒谱系数和Mel倒谱特征系数,建立了基于自组织神经网络的识别判决模型。深入分析和改进了自组织神经网络的分类聚类能力,通过加强训练和设定阈值函数的方法,有效地确定了边界神经元的归属,划分出了合理的输出模式类。验证了自组织神经网络适合于处理孤立词语音识别,并具有快速性和结构简单等特征。MATLAB仿真实验表明,语音识别率达到96%。  相似文献   

10.
马治飞  徐望  王炳锡  王兴斌 《信号处理》2005,21(Z1):192-195
本文详细给出了概率模型中引入倒谱预测值的动态相关性来进行特征补偿的方法.该方法采用期望最大化(EM)算法来估计联合分布参数,基于语音和噪声的先验概率密度、在倒谱域对语音特征参数进行最小均方误差预测(MMSE),以提高语音识别精度.不同噪声环境和不同信噪比下的实验结果表明,本文方法能有效提高噪声环境下的中文连续语音识别的正确率.  相似文献   

11.
We propose a novel feature processing technique which can provide a cepstral liftering effect in the log‐spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance‐based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log‐spectral domain corresponding to the cepstral liftering. The proposed method performs a high‐pass filtering based on the decorrelation of filter‐bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.  相似文献   

12.
Accurate endpoint detection is a necessary capability for speech recognition.A new energy measure method based on the empirical mode decomposition(EMD)algorithm and Tcager energy operator(TEO)is proposed to locate endpoint intervals of a speech signal embedded in noise.With the EMD,the noise signals can be decomposed into different numbers of sub-signals called intrinsic mode functions(IMFs),which is a zero-mean AM-FM component.Then TEO can be used to extract the desired feature of the modulation energy for IMF components.In order to show the effectiveness of the proposed method,examples are presented to show that the new measure is more effective than traditional measures.The present experimental results show that the measure can be used to improve the performance of endpoint detection algorithms and the accuracy of this algorithm is quite satisfactory and acceptable.  相似文献   

13.
胡丹  曾庆宁  龙超  黄桂敏 《电视技术》2015,39(24):43-46
针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提取特征,用隐马尔科夫模型(HMM)训练与识别。实验结果表明,提出的方法最高能使单词识别率提高38.9%,使句子正确率提高21.8%。该方法用于大词汇量连续语音识别是可行的,有效的。  相似文献   

14.
在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。  相似文献   

15.
基于PCANN/HMM混合结构的语音识别方法   总被引:1,自引:0,他引:1  
赵力  邹采荣  吴镇扬 《信号处理》2001,17(5):473-476
本文提出了一种基于PCANN/HMM混合结构的语音识别方法,它采用相继几帧组成的特征参数矢量作为语音识别HMM的输入,能有效地在语音识别HMM中引入帧间相关信息,同时为了改善多帧特征输入HMM的输出概率密度函数性能,在HMM的前端增加语音参数压缩的主分量分析神经网络(PCANN).通过对多讲者汉语连续语音识别实验,证实了本文提出方法的有效性.  相似文献   

16.
该文提出了一种将模糊C-均值聚类法与矢量量化法相结合进行说话人识别的方法。该算法将从语音信号中提取的 12阶 LPC(线性预测编码)倒谱系数作为待分类样本的 12个指标,先用矢量量化法求出每个说话人表征特征参数的码书,作为模糊聚类算法的聚类中心,最后将待识别的特征矢量以得到的码书为聚类中心,进行聚类识别。该算法所使用的特征参数较少,计算比较简单,但识别率较矢量量化法高。  相似文献   

17.
有序聚类方法及其在神经网络语音识别中的应用   总被引:3,自引:1,他引:2  
本文提出了一种新的网络结构,我们称之为有序聚类网络。这种网络能够对语音信号进行特征提取,很好地解决神经网络语音识别中的时间规整问题。有序聚类网络从输入语音信号的特征矢量序列中撮出一组固定数目的特 矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化经分类器的网络产高的识别率。根据该 们建立了  相似文献   

18.
In this paper, alternative dynamic features for speech recognition are proposed. The goal of this work is to improve speech recognition accuracy by deriving the representation of distinctive dynamic characteristics from a speech spectrum. This work was inspired by two temporal dynamics of a speech signal. One is the highly non‐stationary nature of speech, and the other is the inter‐frame change of a speech spectrum. We adopt the use of a sub‐frame spectrum analyzer to capture very rapid spectral changes within a speech analysis frame. In addition, we attempt to measure spectral fluctuations of a more complex manner as opposed to traditional dynamic features such as delta or double‐delta. To evaluate the proposed features, speech recognition tests over smartphone environments were conducted. The experimental results show that the feature streams simply combined with the proposed features are effective for an improvement in the recognition accuracy of a hidden Markov model–based speech recognizer.  相似文献   

19.
It has been shown in the literature that the perceptual wavelet packet decomposition (PWPD) and the Teager energy operator (TEO) are useful for various speech processing systems and speech enhancement applications, respectively. By the use of the PWPD and the TEO, this paper presents an improved wavelet-based speech enhancement method. The main advantage of the proposed method is that the over thresholding of speech segments which is usually occurred in conventional wavelet-based speech enhancement schemes can be avoided. As a consequence, the enhanced speech quality of the proposed method can be increased substantially from those of conventional approaches. In addition, the proposed method does not require a complicated estimation of the noise level or any knowledge of the SNR. Using speech signals corrupted by additive and real noises, experimental results demonstrate that the speech enhancement method presented in this paper is capable of outperforming conventional noise cancellation schemes.  相似文献   

20.
Based on the observation that dissimilar speech enhancement algorithms perform differently for different types of interference and noise conditions, we propose a context-adaptive speech pre-processing scheme, which performs adaptive selection of the most advantageous speech enhancement algorithm for each condition. The selection process is based on an unsupervised clustering of the acoustic feature space and a subsequent mapping function that identifies the most appropriate speech enhancement channel for each audio input, corresponding to unknown environmental conditions. Experiments performed on the MoveOn motorcycle speech and noise database validate the practical value of the proposed scheme for speech enhancement and demonstrate a significant improvement in terms of speech recognition accuracy, when compared to the one of the best performing individual speech enhancement algorithm. This is expressed as accuracy gain of 3.3% in terms of word recognition rate. The advance offered in the present work reaches beyond the specifics of the present application, and can be beneficial to spoken interfaces operating in fast-varying noise environments.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号