首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 135 毫秒
1.
针对语音识别实际应用过程中的噪声问题,给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点。  相似文献   

2.
针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法.通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列.首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征.音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法.对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法.测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率.  相似文献   

3.
有序聚类方法及其在神经网络语音识别中的应用   总被引:3,自引:1,他引:2  
本文提出了一种新的网络结构,我们称之为有序聚类网络。这种网络能够对语音信号进行特征提取,很好地解决神经网络语音识别中的时间规整问题。有序聚类网络从输入语音信号的特征矢量序列中撮出一组固定数目的特 矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化经分类器的网络产高的识别率。根据该 们建立了  相似文献   

4.
文章介绍了一种将语音识别技术应用在电动玩具摩托车中的方法 ,此方法使玩具摩托车能够识别人的语音命令 ,并能完成各种相应的动作 ,识别率在 92 %以上。  相似文献   

5.
胡丹  曾庆宁  龙超  黄桂敏 《电视技术》2015,39(24):43-46
针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提取特征,用隐马尔科夫模型(HMM)训练与识别。实验结果表明,提出的方法最高能使单词识别率提高38.9%,使句子正确率提高21.8%。该方法用于大词汇量连续语音识别是可行的,有效的。  相似文献   

6.
主要讨论了情感语音特征参数的提取、语音情感的分类、语音资料的获取和应用连续隐马可夫模型进行情感识别等,重点比较了ZCPA特征参数和传统特征参数在不同噪声环境下的识别率,实验表明,在不同的噪声环境下,采用ZCPA特征的语音情感的识别效果较好,识别率也没有明显的下降。  相似文献   

7.
全刚  肖熙 《电声技术》2010,34(6):45-47
数字语音识别具有很高的识别率,具有较高的实用价值。为实现在真实噪声环境下能达到高识别率的数字语音识别系统,采用基于段长分布的隐马尔可夫模型(DDBHMM)进行了安静环境和带噪环境下,特定人和非特定人的数字语音识别试验。试验结果表明,基于DDBHMM模型的数字语音识别技术对真实非平稳噪声环境下录制的特定人和非特定人语音都具有较高识别率。  相似文献   

8.
提出一种基于自组织神经网络的数字语音识别模型。首先用基于小波变换和线性预测的特征提取方法提取语音信号特征,用自组织神经网络进行识别判决。这种语音识别方法适合于小词汇量的孤立词识别,网络结构简单,所需训练数据十分的少,实时性能好。用MATLAB进行仿真实验,识别率达到98%。  相似文献   

9.
在信息融合的基础上提出采用基于决策层融合的多生物特征识别技术.对人脸图像采用基于主成分分析(PCA)与线性判别分析(LDA)结合的识别方法;对语音信息采用基于Mel倒频谱系数(MFCC)与混合高斯模型(GMM)的识别方法.将人脸识别子系统和语音识别子系统的输出结果作为决策层支持向量机(SVM)的输入,经过线性核函数SVM分类器融合后得到最终结果.该方法有效的提高了系统的识别率.  相似文献   

10.
模型补偿技术已成功应用到噪声环境下的语音识别任务中。流行的模型补偿技术如Log-Add和Log-Normal PMC(并行模型合并)方法对动态特征参数通常只能给出近似的补偿。因此他们的识别率在较低的信噪比条件下变得很低。本文利用静态特征的导函数推导出了一种新的动态模型参数补偿方法。新的方法可以同任何已知的静态模型补偿算法结合产生出新的用于识别的噪声语音模型。实验证明这一新算法的应用,使其识别率比仅使用原有的模型补偿算法有较为明显的提高,并且新算法的复杂度较原有的模型补偿算法只有轻微的增加。  相似文献   

11.
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能.  相似文献   

12.
噪声下差分复合子带语音识别方法   总被引:4,自引:0,他引:4  
蒋文建  韦岗 《通信学报》2002,23(1):18-24
本文根据子带特征反映语音信号局部特性和全带特征反映语音信号整体特性的事实,提出了 一种差分复合子带语音识别新方法。先用频谱差分减少噪声的干扰,再将多子带特征识别概率与全带特征识别概率相结合进行综合判决,以得到最终识别结果。将新方法应用于TIMIT数据包0-9十个英文数字和E-Set在NoiseX92的白噪声和F16战机噪声下的识别实验。实验结果表明新方法比传统方法识别性能有很大提高。  相似文献   

13.
张志华  王炳锡  彭煊 《电声技术》2005,(5):52-54,69
给出一种新的话音检测方法,即在SNR算法的基础上,应用线性判别分析(LDA)对语音特征参数进行降维。在大噪声环境下,该方法提高了系统的稳健性。同时将这种新的方法与基于信噪比(SNR)和基于噪声/语音统计量(N&S STAT)的算法做了比较,实验表明该方法可以提高检测效率。  相似文献   

14.
不良语音识别技术是在高清音视频业务中监测不良信息的有效手段。本文提出了一个基于声学模型的不良语音识别框架。并针对框架中特征提取、声学模型构建、不良语音判定模型三个重要部分的实现方法进行分析描述。并列举了各种方法的优缺点。对构建高效的不良语音识别系统具有较高的参考价值。  相似文献   

15.
We propose a novel feature processing technique which can provide a cepstral liftering effect in the log‐spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance‐based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log‐spectral domain corresponding to the cepstral liftering. The proposed method performs a high‐pass filtering based on the decorrelation of filter‐bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.  相似文献   

16.
本文在丢失数据技术与声学后退技术的基础上,提出了一种基于模糊规则的鲁棒语音识别方法,首先根据先验知识或假定建立特征分量的可靠程度与其概率分布之间的模糊规则,识别时观察矢量的输出概率由一个基于规则的模糊逻辑系统来得到,并针对倒谱识别系统给出了一种具体的实现方法.实验结果表明,所提识别方法的性能显著优于丢失数据技术和声学后退技术.  相似文献   

17.
This paper discusses robust speech section detection by audio and video modalities. Most of today's speech recognition systems require speech section detection prior to any further analysis, and the accuracy of detected speech section s is said to affect the speech recognition accuracy. Because audio modalities are intrinsically disturbed by audio noise, we have been researching video modality speech section detection by detecting deformations in speech organ images. Video modalities are robust to audio noise, but their detection sections are longer than audio speech sections because deformations in related organs start before the speech to prepare for the articulation of the first phoneme, and also because the settling down motion lasts longer than the speech. We have verified that inaccurate detected sections caused by this excess length degrade the speech recognition rate, leading to speech recognition errors by insertions. To reduce insertion errors, and enhance the robustness of speech detection, we propose a method that takes advantage of the two types of modalities. According to our experiment, the proposed method is confirmed to reduce the insertion error rate as well as increase the recognition rate in noisy environment.  相似文献   

18.
In this letter, we propose a new histogram equalization technique for feature compensation in speech recognition under noisy environments. The proposed approach combines a signal‐to‐noise‐ratio–dependent feature reconstruction method and the class histogram equalization technique to effectively reduce the acoustic mismatch present in noisy speech features. Experimental results from the Aurora 2 task confirm the superiority of the proposed approach for acoustic feature compensation.  相似文献   

19.
基于倒谱特征的带噪语音端点检测   总被引:44,自引:0,他引:44       下载免费PDF全文
胡光锐  韦晓东 《电子学报》2000,28(10):95-97
在语音识别系统中产生错误识别的原因之一是端点检测有误差.在高信噪比情况下,正确地确定语音的端点并不困难.然而,大多数实际的语音识别系统需工作在低信噪比情况下,一些常规的端点检测方法,例如基于能量的端点检测方法在噪声环境下不能有效地工作.本文利用倒谱特征来检测语音端点,提出了带噪语音端点检测的两个算法,第一个算法利用倒谱距离代替短时能量作为判决的门限,第二个算法改进了基于隐马尔柯夫模型(HMM)的语音检测以适应噪声的变化,实验结果表明本方法可得到高正确率的带噪语音端点检测.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号