首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
针对现行异常声音识别算法复杂度高和特征识别率低的问题,将梅尔频率倒谱系数(MFCC)与短时能量混合特征应用到异常声音识别系统中。该混合特征使得高斯混合模型(GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性,分类器的平均识别率可达到90%以上,并且计算复杂度小。  相似文献   

2.
为了监测识别生猪健康状况以及情绪状态,提出一种基于差分进化优化加权随机森林(DE-VRF)猪只声音分类模型,以猪只咳嗽、尖叫和进食声作为研究对象,经预处理后提取改进的梅尔倒谱系数(MFCC_F)、短时能量和短时过零率进行特征融合。采用主成分分析法(PCA)将特征参数降至13维,利用差分进化算法优化加权随机森林模型参数,将融合特征参数输入DE-VRF进行训练与识别。实验结果表明,基于DE-VRF模型的猪只声音平均识别率达96.34%,较DNN、1D-CNN模型相比提高了系统识别的性能。  相似文献   

3.
《传感器与微系统》2019,(2):143-146
提出一种基于变步长最小均方(LMS)和支持向量机(SVM)的电能表内异物声音自动识别方法。由于SVM分类器对噪声敏感,通过变步长LMS实现对采集的电能表内异物声音信号的降噪,相较于固定步长LMS,信噪比提升明显,耗用时间较少。对声音信号进行时、频域和倒谱分析,并提取其短时特征系数及改进梅尔频率倒谱系数(MFCC)。并采用短时能量和MFCC系数构成混合特征矩阵,对该矩阵降维后输入SVM进行异物声音识别。实验证明:提出的方法计算量小、识别率高,有很好的应用价值。  相似文献   

4.
胡峰松  张璇 《计算机应用》2012,32(9):2542-2544
为提高说话人识别系统的识别率,提出了基于梅尔频率倒谱系数(MFCC)与翻转梅尔频率倒谱系数(IMFCC)为特征参数的特征提取新方法。该方法利用Fisher准则将MFCC和IMFCC相结合,构造了一种混合特征参数。实验结果表明,新的混合特征参数与MFCC相比,在纯净语音库及噪声环境中均具有较好的识别性能。  相似文献   

5.
为提高复杂噪声环境下语音信号端点检测的准确率,提出一种基于梅尔频谱倒谱系数(MFCC)距离的多维特征语音信号端点检测算法。通过计算语音信号的MFCC距离,结合短时能量和短时过零率对特征距离进行修正,并更新其阈值,建立自适应噪声模型,实现复杂噪声中语音信号端点的准确检测。实验结果表明,与基于双门限能量和基于倒谱距离的2种经典检测算法相比,在计算效率相同的条件下,该算法的检测准确率更高。  相似文献   

6.
针对采用梅尔倒谱系数(MFCC)表征异常声音时识别率低下问题,提出获取MFCC的改进方法,包括对公共场所典型异常声音信号的特性分析和MFCC提取过程中滤波器组的重新设计。基于公共场所异常声音数据库的实验结果表明,与MFCC特征提取方法相比,该方法提高了特征参数在识别系统中的效率,具有一定的优越性和实用性。  相似文献   

7.
介绍了基于咳嗽音信号的身份识别方法.针对咳嗽音信号的短时突发特点,提出了一种适合咳嗽音的改进MFCC 特征参数MFCC_N,然后将MFCC_N与短时能量(E)作为组合特征参数应用于身份识别系统中.在MATLAB 7.0平台上实现基于GMM的咳嗽音身份识别系统,分别提取咳嗽音信号的MFCC、MFCC+△MFCC和MFCC_N+E作为识别参数进行对比实验.实验结果表明,采用提出的组合特征参数MFCC_N+E进行身份识别是可行有效的,与传统参数MFCC、MFCC+△MFCC相比,采用特征参数MFCC_N+E的识别系统具有较高的识别率和较低的计算复杂度.  相似文献   

8.
论文旨在研究基于MATLAB平台的特定人孤立词小词汇量的语音识别系统的实现。文章分别对语音信号的预处理过程、语音信号的特征提取及语音信号的识别算法等方面进行深入研究和分析在端点检测过程中,使用短时能量和过零率双门限进行检测,应用识别率较高的MFCC作为特征参数,针对传统DTW算法在语音识别中测试语音与参考语音模板匹配所需时间较长的问题,提出搜索路径改进算法,使得算法的运算速度有所提升。为了提升DTW的识别率,提出改进的模板匹配方法——多模板匹配方法。实验结果证明,采用改进算法的语音识别系统有效地降低了识别时间,提高了系统的识别率。  相似文献   

9.
说话人识别中MFCC参数提取的改进   总被引:1,自引:0,他引:1  
在说话人识别方面,最常用到的语音特征就是梅尔倒频谱系数(MFCC)。提出了一种改进的提取MFCC参数的方法,对传统的提取MFCC过程中计算FFT这一步骤进行频谱重构,对频谱进行噪声补偿重建,使之具有很好的抗噪性,逼近纯净语音的频谱。实验表明基于此改进提取的MFCC参数,可以明显提高说话人识别系统的识别率,尤其在低信噪比的环境下,效果明显。  相似文献   

10.
采用改进的MFCC语音特征参数(Mel频率离散小波倒谱系数),使用支持向量机作为分类算法,构建了低信噪比环境下的孤立词非特定人语音识别系统,取得了较高的识别率。将实验结果与基于RBF神经网络的识别结果进行比较,结果表明在低信噪比时,SVM的识别率比使用RBF神经网络有较大提高,具有非常好的鲁棒性。  相似文献   

11.
鸟声识别研究中声音特征选取对识别分类的准确度有很大影响. 为了提高鸟声识别正确率, 针对传统的梅尔倒谱系数(MFCC)对鸟声高频信息表征不足. 提出了基于Fisher准则MFCC和翻转梅尔倒谱系数(IMFCC)的特征融合, 得到新的特征参数MFCC-IMFCC应用于鸟声识别, 提高对鸟声高频信息表征. 同时通过遗传算法(GA)对支持向量机(SVM)中的惩罚因子C和核参数g进行优化, 训练出GA-SVM分类模型. 实验表明, 在同一条件下, MFCC-IMFCC与MFCC相比, 识别率有一定的提高.  相似文献   

12.
现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及短时过零率特征参数和改进Mel频率倒谱系数(Mel frequency cepstral coefficients,MFCC)特征参数融合构成特征参数向量,利用萤火虫算法(firefly algorithm,FA)优化PNN神经网络(probabilistic neural networks)并构建识别模型,实现驾驶员路怒情绪的识别。实验结果表明,在相同神经网络下,改进MFCC融合特征提取方法相比传统MFCC特征提取方法具有更好的抗噪性。同时,FA-PNN模型的识别准确率为93.0%,相比传统PNN模型提高了11个百分点;F1-Score值为0.932 8,提高了0.104 7。该研究论证了语音信号处理技术对驾驶员路怒情绪识别的可行性,为汽车主动安全驾驶预警研究提供了新方法。  相似文献   

13.
针对多声源干扰环境下说话人识别系统性能急剧下降的问题,提出一种提取目标语音的前端处理方法,该方法依据独立语音时频域的近似稀疏性,基于目标语音方位信息采用非线性时频掩蔽方法提取目标语音。建立了基于梅尔倒谱系数(MFCC)的高斯混合模型(GMM)说话人识别系统。仿真实验证明,该方法能有效提取目标语音,提高说话人识别系统的鲁棒性。该文多声源干扰仿真实验条件下,说话人识别系统的识别率平均提高了25%左右。  相似文献   

14.
MFCC特征改进算法在语音识别中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
本文的目的是阐明一种Mel频率倒谱参数特征的改进算法。该算法是通过线性预测的方法从语音信号中提取出残差相位,同时将残差相位与传统的MFCC相结合,并应用到语音识别系统中。该改进算法比传统的MFCC算法具有更好的识别率。  相似文献   

15.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.  相似文献   

16.
语音MFCC特征计算的改进算法   总被引:1,自引:0,他引:1  
提出了一种计算Mel频倒谱参数(Mel frequency cepstral coefficient,MFCC)特征的改进算法,该算法采用了加权滤波器分析(Wrapped discrete Fourier transform,WDFT)技术来提高语音信号低频部分的频谱分辨率,使之更符合人类听觉系统的特性。同时还运用了加权滤波器分析(Weighted filter bank analysis,WFBA)技术,以提高MFCC的鲁棒性。对TIMIT连续语音数据库中DR1集的音素识别结果表明,本文提出的改进算法比传统MFCC算法具有更好的识别率。  相似文献   

17.
In this paper we introduce a robust feature extractor, dubbed as robust compressive gammachirp filterbank cepstral coefficients (RCGCC), based on an asymmetric and level-dependent compressive gammachirp filterbank and a sigmoid shape weighting rule for the enhancement of speech spectra in the auditory domain. The goal of this work is to improve the robustness of speech recognition systems in additive noise and real-time reverberant environments. As a post processing scheme we employ a short-time feature normalization technique called short-time cepstral mean and scale normalization (STCMSN), which, by adjusting the scale and mean of cepstral features, reduces the difference of cepstra between the training and test environments. For performance evaluation, in the context of speech recognition, of the proposed feature extractor we use the standard noisy AURORA-2 connected digit corpus, the meeting recorder digits (MRDs) subset of the AURORA-5 corpus, and the AURORA-4 LVCSR corpus, which represent additive noise, reverberant acoustic conditions and additive noise as well as different microphone channel conditions, respectively. The ETSI advanced front-end (ETSI-AFE), the recently proposed power normalized cepstral coefficients (PNCC), conventional MFCC and PLP features are used for comparison purposes. Experimental speech recognition results demonstrate that the proposed method is robust against both additive and reverberant environments. The proposed method provides comparable results to that of the ETSI-AFE and PNCC on the AURORA-2 as well as AURORA-4 corpora and provides considerable improvements with respect to the other feature extractors on the AURORA-5 corpus.  相似文献   

18.
声音事件识别时受到各种环境声的影响,采用优化正交匹配跟踪(Orthogonal Matching Pursuit,OMP)和短时谱估计对声音信号进行二次重构,能有效提高识别性能。采用粒子群算法(Particle Swarm Optimization,PSO)优化OMP稀疏分解作首次重构,保留声音信号的主体;采用短时谱估计对首次重构后的残余信号作声音增强处理,完成二次重构,去除非平稳噪声和提高重构声音信号的精度;对重构信号提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、优化OMP时-频特征和基频(Pitch)特征,组成复合抗噪特征集OOMP;使用深度置信网络(Deep Belief Network,DBN)对OOMP特征进行学习,并对40种声音事件在不同环境不同信噪比下进行识别。实验结果表明,该方法在不同信噪比的各种环境声中平均识别率为70.44%,且在?5?dB的情况下仍然可以达到49.90%的识别率,从而说明所提方法能有效地识别各种环境下的声音事件。  相似文献   

19.
车型识别具有广阔的应用前景,BP神经网络在车型识别中能够提高车型的识别率。在任何车型大致都可以抽象成一个"工"字型情况下,提取其中的顶长比、前后比和顶高比这三项相对参数作为BP神经网络的输入参数。采用三层3-8-3的BP神经网络,并用14对输入参数离线训练,再用4对新数据进行检验,均得到了预想的期望值。  相似文献   

20.
为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号