首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.  相似文献   

2.
为了提高噪声环境中的语音识别率,将独立成分分析(ICA)方法用于语音信号特征提取.并使用遗传算法(GA)将提取出来的高维特征进行选择,最后得到的语音特征被用于基于高斯混合模型的语音识别应用中,并与传统的Mel倒谱系数(MFcC)特征进行比较。实验结果表明基于ICA与GA的语言特征优于传统的MFCC特征。  相似文献   

3.
相比Mel倒谱系数(MFCC),基于能量偏差移除和幂函数的声音特征(PNCC)具有较强的抗噪能力.首先,将PNCC和MFCC组成混合特征矩阵,在隐马尔科夫模型(HMM)、高斯混合模型(GMM)和支持向量机(SVM)下对混合特征和传统特征做对比实验.其次,先选取实验结果较好的HMM模型过滤测试样本,再分别选取GMM和SVM做二次分类,并测试两种双层模型的识别正确率.结果表明在噪声环境下使用HMM/GMM双层模型和混合特征可取得较好的识别效果.  相似文献   

4.
针对传统英语翻译系统语音识别准确率低,导致语言翻译效果不佳的问题,提出一种语音识别的英语翻译器。在HMM基础上,加入梅尔频率倒谱系数MFCC,通过MFCC提取语音特征,然后利用HMM对语音特征进行识别,最后通过循环神经网络构建Transformer机器翻译模型,从而对提取的中文语音进行翻译。结果表明,提出的HMM+MFCC模型对语音识别的平均识别率高达99.78%,比传统的识别方法高2.89%,且HMM+MFCC模型的平均识别时间仅为1.224 8 s,说明本模型识别效率更高,模型性能更优越;Transformer+词性信息模型的BLEU分数为36.28,比单一Transformer模型的BLEU分数35.69高出了0.59。综合分析可知,采用提出的语音识别和语言翻译方法可提高英语翻译器的语音识别准确率和翻译效果。  相似文献   

5.
基于HMM模型的语音单元边界的自动切分   总被引:1,自引:0,他引:1  
基于隐尔马可夫模型(HMM)的强制对齐方法被用于文语转换系统(TTS)语音单元边界切分.为提高切分准确性,本文对HMM模型的特征选择,模型参数和模型聚类进行优化.实验表明:12维静态Mel频率倒谱系数(MFCC)是最优的语音特征;HMM模型中的状态模型采用单高斯;对于特定说话人的HMM模型,使用分类与衰退树(CART)聚类生成的绑定状态模型个数在3 000左右最优.在英文语音库中音素边界切分的实验中,切分准确率从模型优化前的77.3%提高到85.4%.  相似文献   

6.
目前,汉语识别已经取得了一定的研究成果.但由于中国的地域性差异,十里不同音,使得汉语识别系统在进行方言识别时识别率低、性能差.针对语音识别系统在对方言进行识别时的缺陷,构建了基于HTK的衡阳方言孤立词识别系统.该系统使用HTK3.4.1工具箱,以音素为基本识别单元,提取39维梅尔频率倒谱系数(MFCC)语音特征参数,构建隐马尔可夫模型(HMM),采用Viterbi算法进行模型训练和匹配,实现了衡阳方言孤立词语音识别.通过对比实验,比较了在不同因素模型下和不同高斯混合数下系统的性能.实验结果表明,将39维MFCC和5个高斯混合数与HMM模型结合实验时,系统的性能得到很大的改善.  相似文献   

7.
为了提高语音识别率,提出了一种改进的MFCC参数提取方法。该方法应用小波包变换高分辨率的特点和语音高频加权的功能,在传统MFCC参数的基础上提取了一种新特征参数。新参数能对语音信号频率进行更加精细的划分,能够更稳定地减小频谱失真,且在一定程度上降低了信号的噪声。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

8.
端点检测是语音识别系统的一个重要组成,尤其是在噪声环境中,其准确性对语音识别系统性能有直接影响。提出了一种基于小波子带倒谱系数(SBC)的语音信号端点检测方法,利用小波变换对频带进行尺度划分,采用小波子带倒谱能量检测语音端点。通过与MFCC的仿真对比以及大量实验分析,小波子带倒谱特征在语音端点检测中具有更好的识别性能。  相似文献   

9.
孔玲军  李艳 《福建电脑》2022,38(3):52-54
深度神经网络DNN(Deep Neural Network)是近年机器学习理论中被诸多研究者广泛关注的语音识别模型.DNN模型利用DNN的学习能力可提升对噪声和口音的鲁棒性,在很多大规模语音识别任务中都超过了GMM模型.本文基于DNN与HMM特点,提取40维的MFCC特征向量后,利用DNN的每个输出节点估计HMM每个状...  相似文献   

10.
针对基于隐马尔科夫(HMM,Hidden Markov Model)的MAP和MMSE两种语音增强算法计算量大且前者不能处理非平稳噪声的问题,借鉴语音分离方法,提出了一种语音分离与HMM相结合的语音增强算法。该算法采用适合处理非平稳噪声的多状态多混合单元HMM,对带噪语音在语音模型和噪声模型下的混合状态进行解码,结合语音分离方法中的最大模型理论进行语音估计,避免了迭代过程和计算量特别大的公式计算,减少了计算复杂度。实验表明,该算法能够有效地去除平稳噪声和非平稳噪声,且感知评价指标PESQ 的得分有明显提高,算法时间也得到有效控制。  相似文献   

11.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。  相似文献   

12.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTA-PLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chi-nese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于 MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。  相似文献   

13.
通过对MFCC算法的研究,发现其中的FFT在整个时频空间使用固定的分析窗,这不符合语音信号的特性,而小波变换具有多分辨率特性,更符合人耳的听觉特性。提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC参数的提取方法,用小波包变换代替傅里叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC,然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数。仿真实验证明:基于新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比情况下。  相似文献   

14.
针对深度信念网络(Deep Believe Network,DBN)模型泛化能力较弱,导致语音增强效果不佳的问题,提出了一种特征联合优化的回归DBN语音增强算法。该算法对语音和噪声不做任何假设。该算法分别提取语音信号的LMPS(Log-Mel frequency Power Spectrum)和MFCC(Mel-Frequency Cepstral Coefficients)特征。LMPS用于直接重构增强语音,保证了语音听觉质量,MFCC作为辅助次级特征。将两种特征联合输入到DBN体系中对网络参数进行优化。这种联合优化在对LMPS的直接预测中加入MFCC限制,提升了模型对LMPS估计的泛化能力,更加准确地重构增强语音。仿真结果表明,在不同的信噪比环境下,与LPS(Log Power Spectrum)和LMPS单特征优化相比,LMPS和MFCC联合优化使增强语音获得了较高的PESQ和SNR,提高了语音质量和可懂度。  相似文献   

15.
工程机械强噪音环境下的噪声源较多,导致电话语音通话无法进行,且强噪声造成无效数据占用带宽。为此,提出基于隐马尔科夫模型(HMM)和支持向量机(SVM)的语音活动检测算法。该算法将提取的美尔频率倒谱系数特征向量输入到HMM识别器中,并通过Viterbi算法得到N维最佳识别结果,将其转换为SVM特征向量输入到SVM分类器中进行分类判别,得到判决结果。实验结果表明,该算法在机械工作噪音的情况下,语音检测率较静态统计类算法平均提高9%,比小波支持向量机方法提高11%,在驾驶室噪音的情况下比小波SVM方法有较小幅度的提高,但其增长速度较快,且比传统的统计类算法提高9%。  相似文献   

16.
提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法对训练样本MFCC相同分量在各类语音间距离进行了分析,并通过与传统选取方法的比较实验,说明在小词汇量的语音识别中,选取合适的MFCC系数,不仅能减小计算量,正确识别率也会得到一定程度的提高。运用仿生模式识别理论中同类样本连续的观点,通过在特征空间中对训练样本进行有效的覆盖,大大提高了识别结果。  相似文献   

17.
随着微电子技术的高速发展,基于片上系统SOC的关键词识别系统的研究已成为当前语音处理领域的研究热点和难点。运用Xilinx公司ViterxII Pro开发板作为硬件平台,结合ISE10.1集成开发环境,完成了语音帧输出、MFCC、VQ和HMM等子模块的设计;提出了一种语音帧压缩模块架构,有效实现了语音帧信息到VQ标号序列的压缩,实现了由语音帧压缩模块和HMM模块构建的FPGA关键词识别系统。仿真实验结果表明,该系统具有较高的识别率和实时性,为关键词识别系统的FPGA硬件电路的实现研究提供了实例。  相似文献   

18.
融合LPC与MFCC的特征参数   总被引:1,自引:1,他引:1       下载免费PDF全文
张学锋  王芳  夏萍 《计算机工程》2011,37(4):216-217
在线性预测系数(LPC)的基础上,借鉴美尔倒谱系数(MFCC)计算方法,对LPC进行美尔倒谱计算,得到一种新的特征参数:线性预测美尔倒谱系数(LPMFCC)。在Matlab7.0平台上实现一个基于隐马尔可夫模型(HMM)的说话人识别系统,分别用LPMFCC及其一阶差分、MFCC及其一阶差分和基于小波包分析的特征参数(WPDC)及其一阶差分作为识别参数进行对比实验。结果表明,以LPMFCC作为特征参数的系统具有较高的识别率。  相似文献   

19.
尹许梅  何选森 《计算机工程》2011,37(11):192-194
为提高低信噪比环境下语音的鲁棒性,提出一种改进的Mel频率倒谱系数(MFCC)特征提取方法。在传统MFCC特征提取的基础上,引入更适应人耳听觉系统的Bark子波变换,在快速傅里叶变换之前对语音进行预处理,并在MFCC提取方法中代替离散余弦变换;在语音预处理阶段,利用改进的Lanczos窗函数抑制旁瓣以提高语音鲁棒性。实验表明,与传统MFCC方法相比,在噪声环境下,改进方法具有更高的说话人识别率。  相似文献   

20.
语音端点检测是语音识别系统的重要环节之一。针对噪声环境下的语音端点检测困难,提出了一种改进的支持向量机的语音端点检测方法。利用小波分析(WA)提取含噪语音信号的特征向量。采用遗传算法(GA)得到最优的SVM核函数参数[γ]和惩罚因子[C]。建立语音端点检测模型。在Matlab软件平台下进行仿真实验,结果表明在不同的噪声条件下,GA-SVM算法的平均检测率达到94.5%,明显优于传统的双门限算法和普通的SVM算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号