首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
作为说话人识别特征参量的MFCC的提取过程   总被引:5,自引:0,他引:5  
说话人识别是人的个体特征识别中的一个重要分支,在实际生活中已得到广泛应用。而人的听觉系统是一个比较理想的说话人识别系统,MFCC(Mel倒谱系数)模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中取得了较高的识别率。文中通过一个卷积同态系统简单介绍了语音信号的倒谱分析方法,并通过对Mel频率刻度得到符合人听觉特性的Mel频率等效滤波器组,最后介绍了MFCC求取的一般过程和算法。  相似文献   

2.
基于鲁棒听觉特征的说话人识别   总被引:3,自引:0,他引:3       下载免费PDF全文
林琳  陈虹  陈建 《电子学报》2013,41(3):619-624
 为了提高噪声环境中说话人识别系统的性能,本文提出了一种鲁棒听觉特征提取的算法,并将其应用到说话人识别系统中.运用自适应压缩Gammachirp滤波器组模拟人耳耳蜗的听觉特性,对输入的语音信号进行频域子带滤波,将得到的对数子带能量作为听觉特征参数.分别运用离散余弦变换和核主成分分析方法,对提取的特征参数进行特征变换,降低特征参数的维数,提高特征参数的噪声鲁棒性和个性表现力.实验结果表明,将提取的新听觉特征参数应用到说话人识别系统中,新特征参数在鲁棒性和识别性能上均优于梅尔倒谱系数和基于Gammatone的听觉特征参数.  相似文献   

3.
《无线电工程》2019,(7):606-610
针对噪声环境下说话人确认系统性能急剧下降问题,根据人耳听觉感知特性,利用Gammachirp滤波器组来模拟人耳耳蜗听觉模型,提出了一种鲁棒性听觉特征参数(Gammachirp Feature Coefficient,GCFC)的提取方法。在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background,GMM-UBM)下进行仿真实验,研究了不同噪声环境下系统的噪声鲁棒性和适应性。实验结果表明,在说话人确认系统中,新提取的听觉特征参数在噪声鲁棒性、噪声适应性和系统整体确认性能上均优于梅尔倒谱系数和基于Gammatone滤波器的听觉特征参数。  相似文献   

4.
声纹识别技术,形象的说法就是说话人识别技术.它是根据人在说话时产生的波形,以及波形中反映人类心理和生理的特征参数来判断说话人的身份的技术.本文所研究的是与文本有关的说话人确认系统.比较了基于声道的线性预测倒谱系数(LP CC)和基于听觉特性的MEL频率倒谱系数(MFCC)参数特征,得出MFCC对环境存在更高的鲁棒性.并运用了隐形马尔可夫模型(HMM)在MATLAB上实现了语音数字的识别仿真.本实验系统的识别率达到了90%,验证了HMM模型识别的准确性.  相似文献   

5.
声纹识别是生物特征识别领域的一个重要分支。它采用语言数据自动地鉴定测试者身份。本文研究复杂背景下的声纹识别系统的设计与实现,首先,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;其次,在特征提取阶段,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数(MFCC),将得出的两种参数组成一个特征矢量作为声纹特征;最后声纹识别阶段,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,即判定为说话人。  相似文献   

6.
薛峰  俞一彪 《信号处理》2010,26(1):127-131
缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。   相似文献   

7.
在研究传统语音特征参数线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)的基础上,加入基于人耳听觉特性的Bark子波滤波器组所提取的特征参数,来共同组成特征集.同时将基于遗传算法的相关性特征算法将特征集进行优化,分别采用贝叶斯和径向基神经网络算法进行语音识别.实验结果表明本方法与传统的LPCC和MFCC方法相比,平均识别率分别提高了4.66%和3.5%,最佳达到98.1%的识别率.  相似文献   

8.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

9.
为提升远端说话人员的分辨率,保证真实空间化听觉感受效果,构建一种噪声环境中的双声道音频回波抵消模型。该模型以子带自适应滤波器组为核心分解音频信号,使其形成若干个子频带信号;在子带域内计算噪声干扰阈值,依据阈值的计算结果并结合人耳听觉特性,叠加独立分布白噪声,实现各个子带的回波抵消。在此基础上,引入步长补偿因子和反馈控制理念改进最小均方算法,优化滤波器组参数,提升双声道音频回波抵消效果。测试结果表明:所设计模型可有效处理音频信号中的噪声信号,抵消后的音频信号信噪比均在3.5 dB以上,音频信号的振幅误差均在0.2 V以下,能够提升远端人员说话的分辨率,保证音频质量。  相似文献   

10.
基于压缩感知的稳健性说话人识别   总被引:1,自引:1,他引:0  
单进  芮贤义 《电声技术》2011,35(2):61-63
阐述了在噪声条件下,将基于压缩感知理论的丢失数据重建技术应用于说话人识别系统的系统前端.首先使用Mel滤波器组将带噪语音信号转换成Mel频谱,然后利用带噪MeI谱中可靠数据重建不可靠数据,最后从重建的Mel频谱中提取Mel倒谱特征参数用于说话人识别.稳健性实验结果表明,该方法能够提高在噪声环境下说话人系统的识别率.  相似文献   

11.
董鑫  欧阳喜  殷恒昌  张培 《信号处理》2015,31(5):602-610
在非合作接收中,常常会面临接收带宽内多路通信问题,其信号带宽、位置及个数对接收端来说都是未知的,在现代电子战中,信号还往往具有时变性。针对此问题,本文提出一种针对时变均匀分布信号的自适应信道化接收算法及其系统实现方案,该方法包含动态信道化内核设计、无盲区接收、频谱拼接、参数估计以及偏差校正自适应接收,能够在缺乏先验信息的前提下对均匀分布的时变中频多路信号进行信道化接收。实验结果表明,该方案能有效克服频偏等未知因素的影响,使各路输出的中心频点较准确的对准0频,在无人值守的情况下实现自适应接收。   相似文献   

12.
基于声音定位和听觉掩蔽效应的语音分离研究   总被引:8,自引:2,他引:6       下载免费PDF全文
人耳具有在嘈杂环境中将感兴趣的语言信息提取出来的能力,而双耳听觉特性有助于这种能力的加强.据此本文提出了一种基于声音定位和听觉掩蔽效应的混叠语音分离方法.根据声音到达双耳的时间差和强度差在时频域内确定相应的掩蔽系数,该系数是二值的,以直接去除干扰信号,保留有用信号并达到语音分离的目的.实验表明,本文提出的方法是有效的.该方法不仅适用于混叠语音为浊音情形,对清音的情况同样适用,因而比基于基音提取的语音分离方法的适用范围更广.  相似文献   

13.
CMFB-DWMT多载波系统与DMT多载波系统的比较   总被引:1,自引:0,他引:1  
本文首先讨论了基于余弦调制滤波器组(cosine modulation filter-banks-CMFB)的多载波调制解调结构的快速实现。然后在性能和抗噪方面对CMFB多载波结构与DMT(discretemulti-tone)作了分析和比较。计算机仿真结果显示,CMFB-DWMT(discrete wavelet multi-tone)在左频域特性、抑制噪声和抑制突发错误方面比DMT有较大的优势。  相似文献   

14.
结合人耳听觉模型,利用人耳掩蔽特性,提出了一种基于小波分解和复倒谱变换的音频数字水印算法。该算法通过对原始语音信号进行三级小波分解,提取出小波近似分量,从近似分量中选取重要系数。利用复倒谱变换系数的不相关性.对重要系数进行复倒谱变换实现解相关运算,最终把水印嵌入到语音复倒谱域中,实现了在语音信号中嵌入二值图像,提高了水印嵌入算法的不可听性。实验证明该方法在抗常见的信号处理如加噪、滤波、重采样、有损压缩等方面具有较好的稳健性。  相似文献   

15.
本文提出了一种基于多重统计量分析的小波域语音信息隐藏算法.该算法首先将载体语音信号分成若干包含相同采样点的帧,利用短时能量以及过零率找出属于浊音段的帧分别进行多尺度离散小波分解,提取小波分解后的低频系数;然后对低频系数进行分组并计算各组系数的能量、绝对值方差等统计量的值,根据各组统计值的比较及嵌入的秘密信息比特值,采用不改变或者适当调节各组统计值大小关系的方法来隐藏信息.该算法只在语音的浊音段嵌入信息,充分考虑了人耳的听觉特性.实验结果表明:算法可以盲检测,对加噪、低通滤波、重采样、重量化等攻击均具有良好的稳健性.  相似文献   

16.
李艳福  欧阳喜  范磊 《信号处理》2016,32(3):355-361
加权重叠相加(WOLA)滤波器组是实现信道化滤波的一种高效结构。在其设计过程中需要知道子带信号的数量、位置、带宽等先验信息,故其设计灵活性差,不可重置,不能实现信号的非均匀信道化接收。该文在WOLA法的基础上通过邻近信道合并提出了一种无盲区非均匀信道化滤波结构。仿真结果证明该方法实现了任意位置、任意带宽、任意数量子带信号的无盲区非均匀信道化滤波。该方法在实现过程中参数设计简单、计算复杂度低、硬件实现效率高。不需要知道子带信号的任何先验信息,设计灵活性较高、可重置性强。同时通过改变抽取因子还可以控制输出子带信号的采样率,增强了信号的输出灵活性。   相似文献   

17.
文中提出了一种基于听觉掩蔽效应的DCT域音频水印算法.首先根据人耳听觉系统的心理声学模型估算每帧音频数据的掩蔽阈值,然后利用量化的思想将水印信号自适应地嵌入到掩蔽阈值以下的频率分量所对应的DCT域系数中.仿真实验结果表明:与传统DFT方法相比,该算法具有更好的透明性和鲁棒性.  相似文献   

18.
在分析厅堂脉冲响应的过程中引入了人耳听觉模型,在听觉生理学和心理学研究成果的基础上,建立了针对厅堂音质研究的人耳感知模型。该模型模拟了基底膜的频率选择特性,内毛细胞的半波整流特性以及神经纤维的时域累积特性等一系列人耳感知过程。通过对厅堂脉冲响应的实例分析发现,基于人耳感知模型的厅堂脉冲响应分析具有明显的优点。与现有的客观参量比较,该模型的计算结果与主观感觉之间存在更为紧密的联系。  相似文献   

19.
听觉场景分析的研究进展   总被引:3,自引:0,他引:3  
本文综述了当前听觉场景分析的研究进展与发展方向。听觉场景分析包含心理听觉场景分析和计算听觉场景分析,前者揭示了人对声音的心理感知过程以及多声音信息流检测分离的规律;后者的目标是用计算机模仿人类听觉系统的处理机制,在噪声背景下分析提取所需声音信息,最终使机器具有听觉智能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号