首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
一种适用于说话人识别的改进Mel滤波器   总被引:1,自引:0,他引:1  
项要杰  杨俊安  李晋徽  陆俊 《计算机工程》2013,(11):214-217,222
Mel倒谱系数(MFcc)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。  相似文献   

2.
在噪声环境下能准确有效地提取语音信息是语音识别的重点难点,将其应用于嵌入式系统中,有一定的研究意义.通过比较分析传统的语音特征参数提取的方法:线性预测倒谱系数,Mel频率倒谱系数,提出了一种新的方法,采用Mel频率倒谱系数与一阶差分Mel频率倒谱系数(MFCC+ A MFCC)相结合的方法提取语音特征参数,结合双门限检测法进行端点检测和HMM模型进行模型匹配,并进行了以ARMSX2410为核心硬件与软件的系统设计.该方法较传统方法提高了系统的鲁棒性、识别的准确率和系统效率,适用于噪声环境下的语音识别.  相似文献   

3.
有效的基于内容的音频特征提取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
音频特征提取是音频分类的基础,好的特征将会有效提高分类精度。在提取频域特征Mel频率倒谱系数(MFCC)的同时,对每一帧信号做离散小波变换,提取小波域特征,把频域和小波域特征相结合计算其统计特征。通过SVM模型建立音频模板,对纯语音、音乐及带背景音乐的语音进行分类识别,取得了较高的识别精度。  相似文献   

4.
张小霞  李应 《计算机应用》2013,33(10):2945-2949
针对实际环境噪声使得鸟鸣识别准确率受到影响的问题,提出一种基于能量检测的抗噪鸟鸣识别方法。首先,对包含有噪声的鸟鸣信号用能量检测方法检测并筛选出有用鸟鸣信号;其次,根据梅尔尺度的分布,对有用鸟鸣信号提取小波包分解子带倒谱系数(WPSCC)特征;最后,用支持向量机(SVM)分类器分别对提取的小波包分解子带倒谱系数(WPSCC)和梅尔频率倒谱系数(MFCC)特征进行建模分类识别。同时还对比了在添加不同信噪比的噪声下15类鸟鸣在能量检测前后的识别性能差异。实验结果表明,提取的WPSCC特征具有较好的抗噪功能,且经过能量检测后的识别性能更佳,更适用于复杂环境下的鸟鸣识别  相似文献   

5.
王静宇  张纯  许枫 《计算机应用》2022,(S1):310-315
为了检测野外复杂噪声环境中的鸟鸣声信号,提出一种基于人耳听觉特性的听觉子带能量特征鸟鸣声端点检测方法。利用反映人耳听觉特征的Mel频率尺度变换,将鸟鸣声信号在频域划分为24个子带(称为Mel子带),分析鸟鸣声信号的Mel子带能量分布特征,选取能量值最高的Mel子带能量作为特征量进行端点检测。通过仿真和野外实测数据对比了基于短时能量法的端点检测性能,结果表明Mel子带能量法在信噪比(SNR)为-10 dB条件下仍能检测到鸟鸣声信号,对风声、海浪声等海岛环境噪声也具有较强的抗干扰性能,性能优于短时能量法。  相似文献   

6.
一种基于噪声对消与倒谱均值相减的鲁棒语音识别方法   总被引:1,自引:0,他引:1  
提出一种基于语音增强算法的噪声鲁棒语音识别方法.在语音识别预处理阶段,通过噪声对消语音增强法来抑制噪声提高信噪比.然后对增强语音提取Mel频段倒谱特征参数,并在倒谱域应用倒谱均值相减处理来补偿增强语音中的失真成分和剩余噪声.实验结果表明,在低信噪比(-12—0 dB)条件下,该方法对于数字语音识别具有较好的识别率,其性能明显优于基本的Mel频段倒谱参数识别器、传统的谱减法和噪声对消语音增强法.  相似文献   

7.
提出了一种利用经验模态分解(Empirical Mode Decomposition,EMD)和加权Mel倒谱(Weighted Mel-Cepstrum coefficients,WMCEP)提取语音信号共振峰的算法。对语音信号进行EMD分解,找出含有共振峰的固有模态函数(Intrinsic Mode Function,IMF),并将其重构得到一个新的重构语音信号。对重构语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值。实验结果表明,该算法比单独使用WMCEP提取的共振峰误差更小,而且在信噪比小于20 dB时仍然能够准确提取出共振峰。  相似文献   

8.
基于知识的声目标探测识别系统   总被引:1,自引:0,他引:1  
被动声目标探测广泛应用于战场目标识别或自动设备的故障探测;通过对声目标的短时信号处理,使用现场可编程门阵列器件的可重构技术对声目标探测识别系统设计;提出通过提取子带Mel倒谱系数(MFCC)参数特征构建声目标信息的知识库,并使用0阶Mel倒谱系数(MFCC0)进行频谱能量分析,找寻信号起止端点,将声目标Mel倒谱系数(MFCC)特征参数映射为二值图像进行模板匹配识别;将声目标识别输出的控制指令传送给工控机或直接输出控制相关的智能系统,实现战场声目标识别或自动设备的声故障探测.  相似文献   

9.
端点检测是语音识别系统的一个重要组成,尤其是在噪声环境中,其准确性对语音识别系统性能有直接影响。提出了一种基于小波子带倒谱系数(SBC)的语音信号端点检测方法,利用小波变换对频带进行尺度划分,采用小波子带倒谱能量检测语音端点。通过与MFCC的仿真对比以及大量实验分析,小波子带倒谱特征在语音端点检测中具有更好的识别性能。  相似文献   

10.
基于对数能量倒谱特征的端点检测算法   总被引:1,自引:0,他引:1  
端点检测技术是语音识别的关键技术之一,为了克服传统倒谱距离语音端点检测算法在低信噪比下检测效果的不理想,将对数能量(LE)特征和倒谱(C)特征相结合,提出了一种新的对数能量倒谱特征(LEC),采用模糊C均值聚类和贝叶斯信息准则(BIC)方法估计特征门限,得出了正确的语音端点判断,在三种典型噪声下,对信噪比从-5 dB到15 dB的带噪声语音进行仿真,结果表明LEC法的检测错误率仅为20.25%,明显低于倒谱法和对数能量法,能有效地确定语音的端点并改善语音识别效果。  相似文献   

11.
为了更好地表征语音情感状态,将固有时间尺度分解(ITD)用于语音情感特征提取。从语音信号中得到前若干阶合理旋转(PR)分量,并提取PR分量的瞬时参数特征和关联维数,以此作为新的情感特征参数,结合传统特征使用支持向量机(SVM)进行语音情感识别实验。实验结果显示,引入PR特征参数后,与传统特征的方案相比,情感识别率有了明显提高。  相似文献   

12.
针对声音突发特征(笑声、哭声、叹息声等,称之为功能性副语言)携带大量情感信息,而包含这类突发特征的语句由于特征突发性的干扰整体情感识别率不高的问题,提出了融合功能性副语言的语音情感识别方法。该方法首先对待识别语句进行功能性副语言自动检测,根据检测结果将功能性副语言从语句中分离,从而得到较为纯净的两类信号:功能性副语言信号和传统语音信号,最后将两类信号的情感信息使用自适应权重融合方法进行融合,从而达到提高待识别语句情感识别率和系统鲁棒性的目的。在包含6种功能性副语言和6种典型情感的情感语料库上的实验表明:该方法在与人无关的情况下得到的情感平均识别率为67.41%,比线性加权融合、Dempster-Shafer(DS)证据理论、贝叶斯融合方法分别提高了4.2%、2.8%和2.4%,比融合前平均识别率提高了8.08%,该方法针对非特定人语音情感识别具有较好的鲁棒性及识别准确率。  相似文献   

13.
基于PCA和SVM的普通话语音情感识别   总被引:1,自引:0,他引:1  
蒋海华  胡斌 《计算机科学》2015,42(11):270-273
在语音情感识别中,情感特征的选取与抽取是重要环节。目前,还没有非常有效的语音情感特征被提出。因此,在包含6种情感的普通话情感语料库中,根据普通话不同于西方语种的特点,选取了一些有效的情感特征,包含Mel频率倒谱系数、基频、短时能量、短时平均过零率和第一共振峰等,进行提取并计算得到不同的统计量;接着采用主成分分析(PCA)进行抽取;最后利用基于支持向量机(SVM)的语音情感识别系统进行分类。实验结果表明, 与其他一些重要的研究结果相比,该方法得到了较高的平均情感识别率, 且情感特征的选取、抽取及建模是合理、有效的。  相似文献   

14.
为了更为全面地表征语音情感状态,弥补线性情感特征参数在刻画不同情感类型上的不足,将相空间重构理论引入语音情感识别中来,通过分析不同情感状态下的混沌特征,提取Kolmogorov熵和关联维作为新的情感特征参数,并结合传统语音特征使用支持向量机(SVM)进行语音情感识别。实验结果表明,通过引入混沌参数,与传统物理特征进行识别的方案相比,准确率有了一定的提高,为语音情感的识别提供了一个新的研究途径。  相似文献   

15.
葛磊  强彦  赵涓涓 《软件学报》2016,27(S2):130-136
语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高.  相似文献   

16.
为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法.传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Tra...  相似文献   

17.
语音情感识别的精度很大程度上取决于不同情感间的特征差异性。从分析语音的时频特性入手,结合人类的听觉选择性注意机制,提出一种基于语谱特征的语音情感识别算法。算法首先模拟人耳的听觉选择性注意机制,对情感语谱信号进行时域和频域上的分割提取,从而形成语音情感显著图。然后,基于显著图,提出采用Hu不变矩特征、纹理特征和部分语谱特征作为情感识别的主要特征。最后,基于支持向量机算法对语音情感进行识别。在语音情感数据库上的识别实验显示,提出的算法具有较高的语音情感识别率和鲁棒性,尤其对于实用的烦躁情感的识别最为明显。此外,不同情感特征间的主向量分析显示,所选情感特征间的差异性大,实用性强。  相似文献   

18.
Automatic emotion recognition from speech signals is one of the important research areas, which adds value to machine intelligence. Pitch, duration, energy and Mel-frequency cepstral coefficients (MFCC) are the widely used features in the field of speech emotion recognition. A single classifier or a combination of classifiers is used to recognize emotions from the input features. The present work investigates the performance of the features of Autoregressive (AR) parameters, which include gain and reflection coefficients, in addition to the traditional linear prediction coefficients (LPC), to recognize emotions from speech signals. The classification performance of the features of AR parameters is studied using discriminant, k-nearest neighbor (KNN), Gaussian mixture model (GMM), back propagation artificial neural network (ANN) and support vector machine (SVM) classifiers and we find that the features of reflection coefficients recognize emotions better than the LPC. To improve the emotion recognition accuracy, we propose a class-specific multiple classifiers scheme, which is designed by multiple parallel classifiers, each of which is optimized to a class. Each classifier for an emotional class is built by a feature identified from a pool of features and a classifier identified from a pool of classifiers that optimize the recognition of the particular emotion. The outputs of the classifiers are combined by a decision level fusion technique. The experimental results show that the proposed scheme improves the emotion recognition accuracy. Further improvement in recognition accuracy is obtained when the scheme is built by including MFCC features in the pool of features.  相似文献   

19.
针对单一语音特征对语音情感表达不完整的问题,将具有良好量化和插值特性的LSF参数与体现人耳听觉特性的MFCC参数相融合,提出基于线谱权重的MFCC(WMFCC)新特征。同时,通过高斯混合模型来对该参数建立模型空间,进一步得到GW-MFCC模型空间参数,以获取更高维的细节信息,进一步提高情感识别性能。采用柏林情感语料库进行验证,新参数的识别率比传统的MFCC和LSF分别有5.7%和6.9%的提高。实验结果表明,提出的WMFCC以及GW-MFCC参数可以有效地表现语音情感信息,提高语音情感识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号