首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于FMFCC和HMM的说话人识别   总被引:2,自引:0,他引:2  
张永亮  张先庭  鲁宇明 《计算机仿真》2010,27(5):352-354,358
美尔频率倒谱系数(MFCC)是说话人识别中常用的特征参数,而语音信号是非平稳信号,MFCC并不能很好的反映语音的时频特性。针对这一缺陷,为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征;并利用可分性测度验证了特征参数的有效性;通过建立20个不同说话人的FMFCC特征库,采用隐马尔可夫模型(HMM)对说话人进行仿真识别。仿真结果表明,在合适的变换阶次下,说话人的平均识别率可达93%以上。  相似文献   

2.
在与文本有关的说话人识别系统中,既需要识别说话人的身份,又需要识别语音文本的内容。语音信号特征参数的选取对系统来说至关重要。目前,在传统语音识别系统的研究中,主要采用MFCC参数作为特征参数进行识别。笔者对语音信号特征参数进行分析,对不同的语音特征参数组合进行实验。实验结果证明,在该系统中,MFCC参数与基音参数的组合提高了系统的识别率。  相似文献   

3.
《微型机与应用》2016,(12):18-20
当模仿者蓄意模仿说话人的语音且相似度极高时,说话人识别系统就有可能被欺骗。特征参数的提取是说话人识别的关键环节,直接影响了系统的识别性能。MFCC是语音识别中最热门的特征参数之一,但由于其只反映了语音的静态特性,为了提取更具个人语音特性的特征参数,引入加权MFCC,同时结合离散小波变换得到DWTWC,根据增减分量法,提出了DWI-MFCC。实验表明,DWI-MFCC倒谱系数比MFCC能更有效地区分语音的相似度。  相似文献   

4.
针对单一特征参数表征语音信息不够全面的缺点,利用时域特征参数和频域不同特征参数的优点,融合频域特征参数MFCC、GFCC、MFCC一阶差分、GFCC一阶差分和时域特征参数短时能量,然后将多维度的融合特征参数进行主成分分析降维。降维后的特征参数送入双向长短时记忆神经网络模型进行识别训练。仿真实验表明,本文目标参数参与训练的说话人识别模型取得了99.61%的识别正确率,较其他说话人识别模型的识别率更高。  相似文献   

5.
针对广泛应用于说话人识别的MFCC特征参数在低信噪比环境下识别正确率急剧下降的问题,提出了一种 TECLCFCC特征参数提取方法。在CFCC特征参数的基础上,首先通过信号相位匹配的方法消除语音噪声,然后在 CFCC特征参数的求取过程中加入Teager能量算子,将语音的能量作为说话人的特征参数之一,得到TECLCFCC特 征参数。实验表明,提出的"I'E+CFCC特征参数在信噪比为一5d>3的汽车噪声条件下,识别正确率可达到83.2000  相似文献   

6.
关于生物特征识别问题,人耳的听觉识别精度很重要.识别研究难点在于如何选取有效的耐噪特征参数,以提高识别率,传统的特征参数都将语音视为一种平稳信号进行处理,不能很好的反映语音信号的动态特性,故不能得到较好的识别率.针对提高抗噪声性能和识别声信精度,提出了一种新的特征参数(DWP-MFCC),用在感知倒谱分析(Mel-Cepstrum)的基础上引入多分辨率小波包分析技术,通过提高时频分辨率,增强语音动态信息,克服了原有单一线性分析的不足,并基于矢量量化(VQ)系统进行说话人识别实验.实验证明,与LPCC和MFCC参数相比采用新方法使系统的识别率得到显著的提高.  相似文献   

7.
声纹识别技术实现的关键点在于从语音信号中提取语音特征参数,此参数具备表征说话人特征的能力。基于GMM-UBM模型,通过Matlab实现文本无关的声纹识别系统,对主流静态特征参数MFCC、LPCC、LPC以及结合动态参数的MFCC,从说话人确认与说话人辨认两种应用角度进行性能比较。在取不同特征参数阶数、不同高斯混合度和使用不同时长的训练语音与测试语音的情况下,从理论识别效果、实际识别效果、识别所用时长、识别时长占比等多个方面进行了分析与研究。最终结果表明:在GMM-UBM模式识别方法下,三种静态特征参数中MFCC绝大多数时候具有最佳识别效果,同时其系统识别耗时最长;识别率与语音特征参数的阶数之间并非单调上升关系。静态参数在结合较佳阶数的动态参数时能够提升识别效果;增加动态参数阶数与提高系统识别效果之间无必然联系。  相似文献   

8.
在说话人识别系统中,语音特征参数的提取是影响系统性能的关键因素之一。在研究了MFCC参数的基础上,结合MFCC参数在信号的低频部分具有高频率分辨率以及小波包变换可以对信号的高频部分进行分解以提高高频部分的频率分辨率的优点,将二者结合,将Teager能量算子引入到信号高频部分的能量参数求解,构造了一种新的混合特征参数,采用支持向量机实现说话人的分类识别。实验结果表明,该特征参数有效提高了说话人辨识系统的识别率。  相似文献   

9.
基于加权Mel倒谱系数的说话人识别   总被引:2,自引:0,他引:2  
说话人识别中的首要问题是从语音信号中提取能唯一表现说话人个性特征的有效而稳定可靠的特征参数.把感知加权技术应用到Mel倒谱分析中,通过对基于心理声学模型计算得到的信号掩蔽比插值获得权重函数,并将权重函数应用到Mel倒谱分析中获得加权Mel倒谱系数(WMCEP),以此为特征进行说话人识别.实验结果表明,WMCEP比MFCC和Mel倒谱系数(MCEP)能更好地逼近说话人的谱包络,在噪声环境下的鲁棒性更好,因此其识别性能要优于MFCC和MCEP.  相似文献   

10.
针对目前广泛应用于说话人识别领域的MFCC特征参数包含较少说话人特征信息的问题和SVM分类器选择核函数时受到Mercer准则限制的问题,提出了一种将混沌粒子群算法(CPSO)与核匹配追踪算法(KMP)相结合的说话人识别方法.首先通过CPSO聚类算法将MFCC特征参数进行变换处理,得到精简的MFCC特征参数(SMFCC),然后利用KMP算法对核函数的形式没有任何限制的特性和良好的分类识别性能,对约简后的SMFCC特征参数进行分类训练和识别.仿真实验结果表明,基于CPSO-KMP说话人识别方法相比主流的GMM-UBM方法,在EER性能上相对提高了31%.  相似文献   

11.
时频分布在非平稳信号的分析和处理中具有重要地位,它能够直观、合理的描述信号在时间-频率域上的能量分布。语音信号分类是语音识别、说话人识别、语种辨识和语音合成的一个重要基础,而信号表示的方式和距离测度的选择,对分类性能影响很大。该文正是利用时频分布的特性,对其核参数进行优化,并结合距离测度,完成了独立音标的说话人辨认,获得了较高的准确率,误判率仅为0.99%,具有较好的应用结果。  相似文献   

12.
为了提高语音识别率,提出了一种改进的MFCC参数提取方法。该方法应用小波包变换高分辨率的特点和语音高频加权的功能,在传统MFCC参数的基础上提取了一种新特征参数。新参数能对语音信号频率进行更加精细的划分,能够更稳定地减小频谱失真,且在一定程度上降低了信号的噪声。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

13.
一种适用于说话人识别的改进Mel滤波器   总被引:1,自引:0,他引:1  
项要杰  杨俊安  李晋徽  陆俊 《计算机工程》2013,(11):214-217,222
Mel倒谱系数(MFcc)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。  相似文献   

14.
基于改进LPCC和MFCC的汉语耳语音识别   总被引:5,自引:0,他引:5       下载免费PDF全文
以提高汉语耳语的识别率为目的,提出了将MFCC、LPCC及它们各自的动态参数等多种特征有效结合进行耳语识别的方法。实验结果说明了LPCC、MFCC结合动态参数可作为汉语耳语音识别的特征参数,且它们的结合提高了系统的识别率,在小字库内得出的识别率为94.5%。  相似文献   

15.
Humans are quite adept at communicating in presence of noise. However most speech processing systems, like automatic speech and speaker recognition systems, suffer from a significant drop in performance when speech signals are corrupted with unseen background distortions. The proposed work explores the use of a biologically-motivated multi-resolution spectral analysis for speech representation. This approach focuses on the information-rich spectral attributes of speech and presents an intricate yet computationally-efficient analysis of the speech signal by careful choice of model parameters. Further, the approach takes advantage of an information-theoretic analysis of the message and speaker dominant regions in the speech signal, and defines feature representations to address two diverse tasks such as speech and speaker recognition. The proposed analysis surpasses the standard Mel-Frequency Cepstral Coefficients (MFCC), and its enhanced variants (via mean subtraction, variance normalization and time sequence filtering) and yields significant improvements over a state-of-the-art noise robust feature scheme, on both speech and speaker recognition tasks.  相似文献   

16.
提出一种将减法聚类与改进的模糊C-均值聚类相结合并用于说话人识别的方法.该方法将从语 音信号中提取的Mel 频率倒谱系数及其差分作为特征参数;用减法聚类算法初始化聚类中心,再用改进的模 糊C-均值聚类算法进行修正,形成码本.识别时,对每一个待识别语音进行模糊聚类识别.仿真结果表明,该 方法比改进的模糊C-均值聚类算法识别率高,具有较好的鲁棒性,且计算比较简单.  相似文献   

17.
This paper presents the feature analysis and design of compensators for speaker recognition under stressed speech conditions. Any condition that causes a speaker to vary his or her speech production from normal or neutral condition is called stressed speech condition. Stressed speech is induced by emotion, high workload, sleep deprivation, frustration and environmental noise. In stressed condition, the characteristics of speech signal are different from that of normal or neutral condition. Due to changes in speech signal characteristics, performance of the speaker recognition system may degrade under stressed speech conditions. Firstly, six speech features (mel-frequency cepstral coefficients (MFCC), linear prediction (LP) coefficients, linear prediction cepstral coefficients (LPCC), reflection coefficients (RC), arc-sin reflection coefficients (ARC) and log-area ratios (LAR)), which are widely used for speaker recognition, are analyzed for evaluation of their characteristics under stressed condition. Secondly, Vector Quantization (VQ) classifier and Gaussian Mixture Model (GMM) are used to evaluate speaker recognition results with different speech features. This analysis help select the best feature set for speaker recognition under stressed condition. Finally, four VQ based novel compensation techniques are proposed and evaluated for improvement of speaker recognition under stressed condition. The compensation techniques are speaker and stressed information based compensation (SSIC), compensation by removal of stressed vectors (CRSV), cepstral mean normalization (CMN) and combination of MFCC and sinusoidal amplitude (CMSA) features. Speech data from SUSAS database corresponding to four different stressed conditions, Angry, Lombard, Question and Neutral, are used for analysis of speaker recognition under stressed condition.  相似文献   

18.
杜晓青  于凤芹 《计算机工程》2013,(11):197-199,204
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号