首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
对鸣笛声的准确识别是机动车鸣笛抓拍系统得以运用的关键。为了克服单一特征对鸣笛声表征不足的缺陷,提高识别的准确性,文章将Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)与Gama频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)融合得到M-GFCC特征,并分别使用支持向量机(Support Vector Machines,SVM)和BP(Back Propagation,BP)神经网络算法进行分类。实验结果表明,与使用单一的MFCC特征相比,BP神经网络对鸣笛声识别的有效率提高了10.4%,SVM的有效率提高了4.4%;相较于单一的GFCC特征,BP神经网络的有效率提高了6.6%,SVM的有效率提高了4.2%,证明了该融合特征能提高鸣笛声识别准确性。  相似文献   

2.
针对传统的构音障碍诊断方法存在耗时高、成本高等问题,提出一种构音障碍语音的计算机自动识别方法。结合Gammatone频率倒谱系数(Gammatone Frequency Cepstrum Coefficients, GFCC)与常用声学特征形成组合声学特征,应用差分演化算法进行特征选择,并使用逻辑回归分类器对构音障碍语音进行识别。将Torgo构音障碍语音数据库分成3个语音子集,分别是非词、短词语、限制句子集,提取24维GFCC和37维常用的声学特征构成组合声学特征,最后使用差分演化算法和逻辑回归分类器进行分类识别。实验表明:使用差分演化算法可以有效选择出具有更佳识别能力的特征,从而显著提高构音障碍识别率。在非词子集上的实验准确率达到98.18%,召回率为98.3%,精确率为98.3%。  相似文献   

3.
陈晓  曾昭优 《测控技术》2024,43(6):21-25
为了在低参数量下提高鸟鸣声的识别准确率,提出了一种新的鸟声识别方法,包括鸟声信号特征优化和乌鸦搜索-支持向量机(Support Vector Machine,SVM)分类识别。该方法首先采用主成分分析法对从鸟声中提取的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和翻转梅尔频率倒谱系数进行选择,得到优化后的声音特征参数并将其作为鸟声识别算法的输入;然后利用乌鸦搜索算法对SVM的核参数和损失值进行选优,得到改进的SVM网络用于鸟声分类识别。试验结果表明,该方法对5种鸟声识别的准确率为92.2%,声音特征维数在16时可以得到最好的识别效果。该方法为野外鸟声自动识别提供了一种可行的方式。  相似文献   

4.
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本-语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI (CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLF...  相似文献   

5.
声音事件识别时受到各种环境声的影响,采用优化正交匹配跟踪(Orthogonal Matching Pursuit,OMP)和短时谱估计对声音信号进行二次重构,能有效提高识别性能。采用粒子群算法(Particle Swarm Optimization,PSO)优化OMP稀疏分解作首次重构,保留声音信号的主体;采用短时谱估计对首次重构后的残余信号作声音增强处理,完成二次重构,去除非平稳噪声和提高重构声音信号的精度;对重构信号提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、优化OMP时-频特征和基频(Pitch)特征,组成复合抗噪特征集OOMP;使用深度置信网络(Deep Belief Network,DBN)对OOMP特征进行学习,并对40种声音事件在不同环境不同信噪比下进行识别。实验结果表明,该方法在不同信噪比的各种环境声中平均识别率为70.44%,且在?5?dB的情况下仍然可以达到49.90%的识别率,从而说明所提方法能有效地识别各种环境下的声音事件。  相似文献   

6.
《微型机与应用》2019,(4):67-70
基于深度学习库Tensorflow和深度可分离卷积神经网络(Depthwise Separable Convolutional Neural Network,DS-CNN),实现一个嵌入式离线语音识别系统。利用Tensorflow和DS-CNN对预识别语音进行训练得到声学模型,移植该声学模型至嵌入式处理器中;对采集编码的语音信号经过分帧、加窗等预处理,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficent,MFCC)方法进行特征提取,利用声学模型对提取的特征进行分类判别。测试结果表明,基于深度学习的语音识别可以有效地应用在嵌入式平台上,相比于一些传统算法,在识别率和识别时间上有明显的提高。  相似文献   

7.
脑卒中(cerebral stroke)又称中风、脑血管意外(cerebralvascular accident,CVA),是一种急性脑血管疾病,是我国成年人群致死、致残的首位病因,具有发病率高、致残率高、死亡率高和复发率高的特点。目前,针对脑卒中的治疗手段有限,而且疗效不太理想,预防是现阶段最好的治疗措施。为了有效预防脑卒中,笔者提出了一种基于深度学习和梅尔频率倒谱系数(Mel Frequency Cestrum Coefficient,MFCC)特征的脑卒中预测。首先,通过录音设备录取脑卒中患者和正常人的一小段特定语音;其次,对特定的语音做信号预处理,经预处理后对语音进行相应的梅尔变换,通过离散余弦变换获得MFCC语音特征;最后,将MFCC特征放入卷积神经网络进行模型训练,获取脑卒中的预测评价。实验结果表明,通过将MFCC特征输入到卷积神经网络进行模型训练,在预测准确性和鲁棒性方面具有较好表现。  相似文献   

8.
现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及短时过零率特征参数和改进Mel频率倒谱系数(Mel frequency cepstral coefficients,MFCC)特征参数融合构成特征参数向量,利用萤火虫算法(firefly algorithm,FA)优化PNN神经网络(probabilistic neural networks)并构建识别模型,实现驾驶员路怒情绪的识别。实验结果表明,在相同神经网络下,改进MFCC融合特征提取方法相比传统MFCC特征提取方法具有更好的抗噪性。同时,FA-PNN模型的识别准确率为93.0%,相比传统PNN模型提高了11个百分点;F1-Score值为0.932 8,提高了0.104 7。该研究论证了语音信号处理技术对驾驶员路怒情绪识别的可行性,为汽车主动安全驾驶预警研究提供了新方法。  相似文献   

9.
杜晓青  于凤芹 《计算机工程》2013,(11):197-199,204
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。  相似文献   

10.
为了提高语音识别系统的鲁棒性,提出一种基于GBFB(spectro-temporal Gabor filter bank)的声学特征提取方法,并通过分块PCA算法对高维的GBFB特征进行降维处理,最后在多个相同噪音环境对GBFB特征以及常用的GFCC,MFCC,LPCC等特征进行抗噪性能对比,与GFCC相比GBFB特征的识别率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9个分贝。实验结果表明,在噪音环境下与传统的GFCC、MFCC以及LPCC等特征相比GBFB特征有更优越的鲁棒性。  相似文献   

11.
工程机械强噪音环境下的噪声源较多,导致电话语音通话无法进行,且强噪声造成无效数据占用带宽。为此,提出基于隐马尔科夫模型(HMM)和支持向量机(SVM)的语音活动检测算法。该算法将提取的美尔频率倒谱系数特征向量输入到HMM识别器中,并通过Viterbi算法得到N维最佳识别结果,将其转换为SVM特征向量输入到SVM分类器中进行分类判别,得到判决结果。实验结果表明,该算法在机械工作噪音的情况下,语音检测率较静态统计类算法平均提高9%,比小波支持向量机方法提高11%,在驾驶室噪音的情况下比小波SVM方法有较小幅度的提高,但其增长速度较快,且比传统的统计类算法提高9%。  相似文献   

12.
为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。  相似文献   

13.
一种基于MFCC和LPCC的文本相关说话人识别方法   总被引:1,自引:0,他引:1  
于明  袁玉倩  董浩  王哲 《计算机应用》2006,26(4):883-885
在说话人识别的建模过程中,为传统矢量量化模型的码字增加了方差分量,形成了一种新的连续码字分布的矢量量化模型。同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数,来进行与文本有关的说话人识别。通过与动态时间规整算法和传统的矢量量化方法进行比较表明,在系统响应时间并未明显增加的基础上,该模型识别率有一定提高。  相似文献   

14.
融合LPC与MFCC的特征参数   总被引:1,自引:1,他引:1       下载免费PDF全文
张学锋  王芳  夏萍 《计算机工程》2011,37(4):216-217
在线性预测系数(LPC)的基础上,借鉴美尔倒谱系数(MFCC)计算方法,对LPC进行美尔倒谱计算,得到一种新的特征参数:线性预测美尔倒谱系数(LPMFCC)。在Matlab7.0平台上实现一个基于隐马尔可夫模型(HMM)的说话人识别系统,分别用LPMFCC及其一阶差分、MFCC及其一阶差分和基于小波包分析的特征参数(WPDC)及其一阶差分作为识别参数进行对比实验。结果表明,以LPMFCC作为特征参数的系统具有较高的识别率。  相似文献   

15.
随着微电子技术的高速发展,基于片上系统SOC的关键词识别系统的研究已成为当前语音处理领域的研究热点和难点。运用Xilinx公司ViterxII Pro开发板作为硬件平台,结合ISE10.1集成开发环境,完成了语音帧输出、MFCC、VQ和HMM等子模块的设计;提出了一种语音帧压缩模块架构,有效实现了语音帧信息到VQ标号序列的压缩,实现了由语音帧压缩模块和HMM模块构建的FPGA关键词识别系统。仿真实验结果表明,该系统具有较高的识别率和实时性,为关键词识别系统的FPGA硬件电路的实现研究提供了实例。  相似文献   

16.
尹许梅  何选森 《计算机工程》2011,37(11):192-194
为提高低信噪比环境下语音的鲁棒性,提出一种改进的Mel频率倒谱系数(MFCC)特征提取方法。在传统MFCC特征提取的基础上,引入更适应人耳听觉系统的Bark子波变换,在快速傅里叶变换之前对语音进行预处理,并在MFCC提取方法中代替离散余弦变换;在语音预处理阶段,利用改进的Lanczos窗函数抑制旁瓣以提高语音鲁棒性。实验表明,与传统MFCC方法相比,在噪声环境下,改进方法具有更高的说话人识别率。  相似文献   

17.
胡峰松  张璇 《计算机应用》2012,32(9):2542-2544
为提高说话人识别系统的识别率,提出了基于梅尔频率倒谱系数(MFCC)与翻转梅尔频率倒谱系数(IMFCC)为特征参数的特征提取新方法。该方法利用Fisher准则将MFCC和IMFCC相结合,构造了一种混合特征参数。实验结果表明,新的混合特征参数与MFCC相比,在纯净语音库及噪声环境中均具有较好的识别性能。  相似文献   

18.
传统的说话人识别中,人们往往认为人耳对相位信息不敏感而忽略了相位信息对语音识别的影响。为了验证相位信息对说话人识别的影响,提出了一种提取相位特征参数的方法。分别在纯净语音和带噪语音条件下,基于高斯混合模型,通过将相位特征参数与耳蜗倒谱系数(CFCC)相结合,研究了相位信息对说话人辨识性能的影响。实验结果标明:相位信息在说话人识别中也有着重要的作用,将其应用于说话人辨识系统,可明显提高系统的识别率和鲁棒性。  相似文献   

19.
提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法对训练样本MFCC相同分量在各类语音间距离进行了分析,并通过与传统选取方法的比较实验,说明在小词汇量的语音识别中,选取合适的MFCC系数,不仅能减小计算量,正确识别率也会得到一定程度的提高。运用仿生模式识别理论中同类样本连续的观点,通过在特征空间中对训练样本进行有效的覆盖,大大提高了识别结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号