共查询到19条相似文献,搜索用时 203 毫秒
1.
2.
为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。 相似文献
3.
为了解决特征提取计算量大且特征参数不够全面的问题,提出了用主成分分析和K-means聚类进行语音特征参数提取的方法。通过对说话人识别系统中最常用的线性预测倒谱系数( LPCC)参数和梅尔倒谱系数( MFCC)参数提取原理以及差分参数的提取算法深入研究,选择LPCC、MFCC以及其一阶差分参数的组合作为最终混合特征参数。首先用主成分分析降低每一帧语音信号特征参数的阶数,然后经过K-means聚类降低帧数,最后通过矢量量化( VQ)来进行说话人识别。实验结果表明,该方法降低了计算复杂度,同时也提升了识别准确性。 相似文献
4.
在噪声环境下能准确有效地提取语音信息是语音识别的重点难点,将其应用于嵌入式系统中,有一定的研究意义.通过比较分析传统的语音特征参数提取的方法:线性预测倒谱系数,Mel频率倒谱系数,提出了一种新的方法,采用Mel频率倒谱系数与一阶差分Mel频率倒谱系数(MFCC+ A MFCC)相结合的方法提取语音特征参数,结合双门限检测法进行端点检测和HMM模型进行模型匹配,并进行了以ARMSX2410为核心硬件与软件的系统设计.该方法较传统方法提高了系统的鲁棒性、识别的准确率和系统效率,适用于噪声环境下的语音识别. 相似文献
5.
基于FMFCC和HMM的说话人识别 总被引:2,自引:0,他引:2
美尔频率倒谱系数(MFCC)是说话人识别中常用的特征参数,而语音信号是非平稳信号,MFCC并不能很好的反映语音的时频特性。针对这一缺陷,为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征;并利用可分性测度验证了特征参数的有效性;通过建立20个不同说话人的FMFCC特征库,采用隐马尔可夫模型(HMM)对说话人进行仿真识别。仿真结果表明,在合适的变换阶次下,说话人的平均识别率可达93%以上。 相似文献
6.
一种基于MFCC的音频数据检索方法 总被引:3,自引:1,他引:2
以LPC倒谱系数(LPCC)为特征参数的音频数据检索是人们常用的一种方法,但这种方法没有充分考虑到人耳听觉的非线性特性.因此,提出了一种采用MFCC及其差分倒谱系数相结合作为特征参数来做音频数据检索的方法.通过实验对比分析结果表明,这种音频数据检索方法比LPCC的检索具有更高的识别率. 相似文献
7.
针对说话人识别系统中存在的有效语音特征提取以及噪声影响的问题,提出了一种新的语音特征提取方法——基于S变换的美尔倒谱系数(SMFCC)。该方法是在传统美尔倒谱系数(MFCC)的基础上利用S变换的二维时频多分辨率特性,以及奇异值分解(SVD)方法的二维时频矩阵有效去噪性,并结合相关统计分析方法最终获得语音特征。采用TIMIT语音数据库,将所提的特征和现有特征进行对比实验。SMFCC特征的等错误率(EER)和最小检测代价(MinDCF)均小于线性预测倒谱系数(LPCC)、MFCC及其结合方法LMFCC,比MFCC的EER和MinDCF08分别下降了3.6%与17.9%。实验结果表明所提方法能够有效去除语音信号中的噪声,提升局部分辨率。 相似文献
8.
9.
10.
介绍一种新的等距离采样参数归一化方法.针对美尔倒谱系数(MFCC)和一阶、二阶美尔倒谱系数,提出了一种新的学习矢量量化(LVQ1)和改进学习矢量量化(LVQ2)结合的识别算法.仿真结果表明所提出的算法相对于只用LVQ1网络识别,可以有效改善学习效率. 相似文献
11.
通过对MFCC算法的研究,发现其中的FFT在整个时频空间使用固定的分析窗,这不符合语音信号的特性,而小波变换具有多分辨率特性,更符合人耳的听觉特性。提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC参数的提取方法,用小波包变换代替傅里叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC,然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数。仿真实验证明:基于新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比情况下。 相似文献
12.
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。 相似文献
13.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。 相似文献
14.
提出了一种基于流形学习的特征提取方法,将流形学习有效地应用于汉语方言辨识。针对语音语谱特征空间维数较高的问题,利用局部线性嵌入(LLE)方法降维并与MFCC特征进行融合,融合结果作为新特征用于汉语方言辨识。仿真实验表明,LLE算法能够获取汉语方言的本征规律,融合后的特征能够有效地提高汉语方言辨识的正确识别率。 相似文献
15.
通过分析嗓音的发音机理,提取正常与病态嗓音的传统声学参数:基频、共振峰、Mel倒谱系数(MFCC),以及非线性特征参数:计盒维数与截距,作为病态嗓音识别的特征矢量集。应用高斯混合模型(GMM)对156例正常嗓音与146例病态嗓音进行建模与识别。结果表明:非线性特征参数计盒维数与截距能很好地区分正常与病态嗓音,它们与传统声学参数基频和共振峰的组合,能够取得92.60%的识别率。 相似文献
16.
针对目前说话人识别中个性化的特征提取以及假冒说话人的问题,提出一种组合特征提取和二级判断模型相结合的说话人识别方法。在特征提取阶段,采用MFCC倒谱特征、Delta_ Delta特征与平均幅度差法提取的基音周期相结合进行组合特征提取;在识别阶段,采用得分规整后的得分值与一个统一的阈值比较,将一部分假冒说话人排除后,再结合二级判断模型进行识别。实验结果证明该方法有效提高了识别率。 相似文献
17.
18.
基于人耳听觉感知的MFCC较其他说话人特征具有强抗噪性、高识别率特点。考虑美尔滤波器组的结构,其只在低频区具有较高的分辨率,在高频区分辨率却较低,这样势必会遗失一些包含在高频区域的重要信息。利用反美尔域下的特征R-MFCC与MFCC的各自优点,将R-MFCC与MFCC结合,形成优势互补,并给出了衡量各种特征参数识别能力的Fisher准则,结合Fisher准则构造出一种新的混合特征参数。采用支持向量机分别以MFCC、R-MFCC以及新构造的混合特征为参数进行说话人的识别,实验证明基于Fisher准则的优选混合特征作为说话人识别特征是可行的。 相似文献
19.
提出了基于Mel倒谱系数和加权的一阶、二阶差分Mel倒谱系数特征参数组合的环境音分类,实验结果表明以MFCC+α△MFCC+β△△MFCC为特征参数的分类正确率明显高于MFCC、MFCC+△MFCC和MFCC+△MFCC+△MFCC。 相似文献