首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及三角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替三角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统三角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征.  相似文献   

2.
针对单一特征参数表征语音信息不够全面的缺点,利用时域特征参数和频域不同特征参数的优点,融合频域特征参数MFCC、GFCC、MFCC一阶差分、GFCC一阶差分和时域特征参数短时能量,然后将多维度的融合特征参数进行主成分分析降维。降维后的特征参数送入双向长短时记忆神经网络模型进行识别训练。仿真实验表明,本文目标参数参与训练的说话人识别模型取得了99.61%的识别正确率,较其他说话人识别模型的识别率更高。  相似文献   

3.
提出了一种基于Bark子波变换和概率神经网络(PNN)的语音识别模型。利用符合人耳听觉特性的Bark滤波器组进行信号重构并提取语音特征,然后利用训练好的概率神经网络进行识别。通过训练大量语音样本来构成语音识别库,并建立综合识别系统。实验结果表明该方法与传统的LPCC/DTW和MFCC/DWT方法相比,识别率分别提高了14.9%和10.1%,达到了96.9%的识别率。  相似文献   

4.
在噪声环境下能准确有效地提取语音信息是语音识别的重点难点,将其应用于嵌入式系统中,有一定的研究意义.通过比较分析传统的语音特征参数提取的方法:线性预测倒谱系数,Mel频率倒谱系数,提出了一种新的方法,采用Mel频率倒谱系数与一阶差分Mel频率倒谱系数(MFCC+ A MFCC)相结合的方法提取语音特征参数,结合双门限检测法进行端点检测和HMM模型进行模型匹配,并进行了以ARMSX2410为核心硬件与软件的系统设计.该方法较传统方法提高了系统的鲁棒性、识别的准确率和系统效率,适用于噪声环境下的语音识别.  相似文献   

5.
尹许梅  何选森 《计算机工程》2011,37(11):192-194
为提高低信噪比环境下语音的鲁棒性,提出一种改进的Mel频率倒谱系数(MFCC)特征提取方法。在传统MFCC特征提取的基础上,引入更适应人耳听觉系统的Bark子波变换,在快速傅里叶变换之前对语音进行预处理,并在MFCC提取方法中代替离散余弦变换;在语音预处理阶段,利用改进的Lanczos窗函数抑制旁瓣以提高语音鲁棒性。实验表明,与传统MFCC方法相比,在噪声环境下,改进方法具有更高的说话人识别率。  相似文献   

6.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。  相似文献   

7.
为了提高噪声环境中的语音识别率,将独立成分分析(ICA)方法用于语音信号特征提取.并使用遗传算法(GA)将提取出来的高维特征进行选择,最后得到的语音特征被用于基于高斯混合模型的语音识别应用中,并与传统的Mel倒谱系数(MFcC)特征进行比较。实验结果表明基于ICA与GA的语言特征优于传统的MFCC特征。  相似文献   

8.
基于Fisher比的梅尔倒谱系数混合特征提取方法   总被引:1,自引:0,他引:1  
针对语音识别中梅尔倒谱系数(MFCC)对中高频信号的识别精度不高,并且没有考虑各维特征参数对识别结果影响的问题,提出基于MFCC、逆梅尔倒谱系数(IMFCC)和中频梅尔倒谱系数(MidMFCC),并结合Fisher准则的特征提取方法。首先对语音信号提取MFCC、IMFCC和MidMFCC三种特征参数,分别计算三种特征参数中各维分量的Fisher比,通过Fisher比对三种特征参数进行选择,组成一种混合特征参数,提高语音中高频信息的识别精度。实验结果表明,在相同环境下,新的特征与MFCC参数相比,识别率有一定程度的提高。  相似文献   

9.
为了监测识别生猪健康状况以及情绪状态,提出一种基于差分进化优化加权随机森林(DE-VRF)猪只声音分类模型,以猪只咳嗽、尖叫和进食声作为研究对象,经预处理后提取改进的梅尔倒谱系数(MFCC_F)、短时能量和短时过零率进行特征融合。采用主成分分析法(PCA)将特征参数降至13维,利用差分进化算法优化加权随机森林模型参数,将融合特征参数输入DE-VRF进行训练与识别。实验结果表明,基于DE-VRF模型的猪只声音平均识别率达96.34%,较DNN、1D-CNN模型相比提高了系统识别的性能。  相似文献   

10.
《微型机与应用》2019,(4):67-70
基于深度学习库Tensorflow和深度可分离卷积神经网络(Depthwise Separable Convolutional Neural Network,DS-CNN),实现一个嵌入式离线语音识别系统。利用Tensorflow和DS-CNN对预识别语音进行训练得到声学模型,移植该声学模型至嵌入式处理器中;对采集编码的语音信号经过分帧、加窗等预处理,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficent,MFCC)方法进行特征提取,利用声学模型对提取的特征进行分类判别。测试结果表明,基于深度学习的语音识别可以有效地应用在嵌入式平台上,相比于一些传统算法,在识别率和识别时间上有明显的提高。  相似文献   

11.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTA-PLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chi-nese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于 MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。  相似文献   

12.
由于传统的说话人识别中,常用的特征参数有线性预测系数(LPC)、Mel频率倒谱系数(MFCC),采用单一特征参数并不能很好地反映说话人特性.针对这种情况,提出了引入Delta特征和特征组合的方法.实验结果表明,引入Delta特征和特征组合对识别效果有明显提高,实验中选用GMM作为说话人识别模型.  相似文献   

13.
通过对MFCC算法的研究,发现其中的FFT在整个时频空间使用固定的分析窗,这不符合语音信号的特性,而小波变换具有多分辨率特性,更符合人耳的听觉特性。提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC参数的提取方法,用小波包变换代替傅里叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC,然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数。仿真实验证明:基于新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比情况下。  相似文献   

14.
通过分析嗓音的发音机理,提取正常与病态嗓音的传统声学参数:基频、共振峰、Mel倒谱系数(MFCC),以及非线性特征参数:计盒维数与截距,作为病态嗓音识别的特征矢量集。应用高斯混合模型(GMM)对156例正常嗓音与146例病态嗓音进行建模与识别。结果表明:非线性特征参数计盒维数与截距能很好地区分正常与病态嗓音,它们与传统声学参数基频和共振峰的组合,能够取得92.60%的识别率。  相似文献   

15.
提出了一个改进的三特征流听视觉融合异步动态贝叶斯网络情感模型(VVA_AsyDBN),采用面部几何特征(GF)和面部主动外观模型特征(AAM)作为两个视觉输入流,语音Mel倒谱特征(MFCC)作为听觉输入流,且视觉流的状态和听觉流的状态可以存在有约束的异步。在eNTERFACE’05听视觉情感数据库上进行了情感识别实验,并与传统的多流同步隐马尔可夫模型(MSHMM),以及具有两个听觉特征流(语音MFCC和局域韵律特征LP)和一个视觉特征流的听视觉异步DBN模型(T_AsyDBN)进行了比较。实验结果表明,VVA_AsyDBN获得了最高识别率75.61%,比视觉单流HMM提高了12.50%,比采用AAM、GF和MFCC特征的MSHMM提高了2.32%,比T_AsyDBN的最高识别率也提高了1.65%。  相似文献   

16.
针对智能监控前端系统中异常声音检测的高实时性和高准确率要求,提出一种基于混合特征参数和改进动态时间弯折(DTW)算法的异常声音检测方案。通过短时幅度和过动态门限率判决声音端点,提取包括短时幅度、美尔倒谱系数和差分系数在内的混合特征参数,采用改进的DTW算法进行声音识别。在TI TMS320DM368处理器平台上的实验结果表明,基于该方案的智能监控前端系统对异常声音的识别时间小于1 s,准确率达到89.3%。  相似文献   

17.
说话人识别中MFCC参数提取的改进   总被引:1,自引:0,他引:1  
在说话人识别方面,最常用到的语音特征就是梅尔倒频谱系数(MFCC)。提出了一种改进的提取MFCC参数的方法,对传统的提取MFCC过程中计算FFT这一步骤进行频谱重构,对频谱进行噪声补偿重建,使之具有很好的抗噪性,逼近纯净语音的频谱。实验表明基于此改进提取的MFCC参数,可以明显提高说话人识别系统的识别率,尤其在低信噪比的环境下,效果明显。  相似文献   

18.
俸云  景新幸 《计算机仿真》2009,26(10):327-329,343
美尔频率倒谱参数(Mel frequency cepstral coefficient,MFCC)仿真了人耳的听觉特性,在语音识别实际应用中取得了比较高的识别率。为了更进一步完善系统以提高系统的识别率,提出一种将MFCC和残差相位相结合的方法进行语音识别。将传统的基于MFCC的语音识别效果,与基于MFCC和残差相位相结合的语音识别效果进行比较。通过在MATLAB环境下进行仿真实验得出理想结论。利用MFCC和残差相位相结合的识别率高于MFCC的系统的识别率。所提出的改进算法更好的完善了识别系统,获得了更高的语音识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号