首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为了提高Speech-denoising Wavenet端到端语音去噪模型的去噪效果,将语音的梅尔频率倒谱系数(MFCC)通过一层全连接层和一层卷积层添加至原模型的空洞卷积层之后。实验结果表明,改进后的模型虽然去噪速度降低了18.42%,但是SNR提升了3.60%且训练时间缩短了接近30%。  相似文献   

2.
针对目前熔透检测方法存在的信噪比低、实时性差等缺点,提出了一种激光光电法可通过提取熔池表面特征参数实现直流TIG焊定点及连续焊接条件下熔透状态实时检测.介绍了该方法的原理,构建了直流TIG焊光电法电压信号检测及背面熔透同步摄像采集试验平台.采集了定点及连续焊接条件下电压信号与同步摄像图像,对比分析了电压信号与熔透状态的对应关系及电压信号的变化规律.结果表明:激光光电法采集的电压信号可以较好反映直流TIG焊熔透状态;利用熔透状态从未熔透转变为临界熔透时熔池表面由凸面突变为凹面,激光反射条纹快速聚焦,从而引起光电法电压信号迅速变化的现象,可以实现直流TIG焊熔透特征信号的精确识别与提取.  相似文献   

3.
基于人工神经元网络的MAG焊熔滴过渡模型   总被引:1,自引:0,他引:1  
采用新型的脉动送丝机构是解决恒定直流MAG焊稳定射滴过渡的有效途径,应用该机构采用人工神经元网络建立了熔滴过渡模型。应用该模型计算获得的熔滴尺寸与实际情况吻合,模型的准确性得到了很好的验证。  相似文献   

4.
环境音识别是机器学习领域中的一个研究重点和难点,它可以帮助智能系统识别音频数据中的环境音。本文提出一种新的环境音识别方法,它是将梅尔频率倒谱系数(mel frequency cepstral coefficents,MFCC)和修正群延迟函数(modified group delay function,MODGDF)联合作为特征参数,然后利用多分类支持向量机(support vector machine,SVM)进行参数分类,达到识别音频数据中环境音的目的。结果表明,在DCASE 2018数据集上,该方法的实验效果优于DCASE 2018数据集基线系统识别效果,整体识别准确率提高了25.8%。  相似文献   

5.
针对人脸动画技术中的面部特征与语音特征的映射问题,提出了一种基于双向长短时记忆网络(Bi -LSTM)的映射模型学习方法.首先,在训练视频中同步地分别提取语音信号的MFCC参数和视频帧序列中的人脸特征点参数.其次,训练映射模型过程中将MFCC参数作为Bi -LSTM网络的输入,将面部特征参数作为网络的期望输出,并引入参数调优机制对迭代次数、隐层单元数、批处理大小、优化器类型等进行实验调优,以此得到最优的映射模型.对最优映射模型进行实验结果表明,采用双向Bi -LSTM 网络明显优于单向的LSTM网络,而且经过参数调优后映射准确率达到0.895; 因此,本文方法可以为后续的基于语音驱动的人脸视频合成应用提供有效的人脸特征预测参数.  相似文献   

6.
为了克服传统语音端点检测算法在低信噪比环境下准确率低的问题,提出一种基于谱熵梅尔积(MFPH)的语音端点检测算法.首先,提取带噪语音信号的梅尔频率倒谱系数中的第一维参数MFCC0,将其与谱熵的乘积作为最终区分语音段和背景噪声段的融合特征参数;然后,结合模糊C均值聚类算法和贝叶斯信息准则(BIC)算法对MFPH特征参数门限值进行自适应估计;最后,采用双门限法进行语音端点检测.实验结果证明,与传统方法比较,该方法在-5~15 dB低信噪比环境下的语音端点检测准确率有较大提高.  相似文献   

7.
针对轮廓检测系统输出采样信号的特点,结合稀疏表示及主成分分析理论,提出了一种基于稀疏表示的特定目标识别方法。该方法首先通过主成分分析提取采样信号的主要成分以消除冗余信息,同时将信号转换为相同维数的特征向量,然后将特征向量投影到低维空间构造出字典,通过该字典对测试信号进行稀疏表示、识别。数值仿真与现场实验结果表明:该方法在低维空间下具有很好的识别效果;并结合实际情况,对有损坏传感器的系统进行测试,结果表明本文方法具有较好的鲁棒性。  相似文献   

8.
金琰  张健 《辽宁工学院学报》2007,27(6):365-367,371
通过Mel频率倒谱系数的方法对语音信号波形进行处理,采用BP网络作为分类器,实现了孤立数字的语音识别系统,在matlab环境下对算法进行仿真。实验表明,这种方法具有计算简单,识别精度高的特点。  相似文献   

9.
为分析病理人群与正常人群的发音差异性,提出一种结合语音融合特征和随机森林的语音识别方法来进行正常语音与构音障碍语音的分类识别,从而为医学诊断和治疗提供科学和客观的依据.首先,使用多伦多大学开发的病理语音数据库,提取出语音的五种韵律特征以及梅尔频率倒谱系数,再计算其统计特征,构成融合特征,最后结合随机森林算法进行分类识别.结果显示,相比于单一类型特征,提出的融合特征在识别性能上有着显著优化作用,与随机森林分类器结合后,对于男性声音的分类准确率达到99.21%,对于女性声音的分类准确率达到98.97%,综合分类准确率达到98.00%.同时研究还发现,相较于句子,患者对短语的发音更为准确.  相似文献   

10.
提出了一种基于梅尔频率倒谱系数相关性的语音感知哈希内容认证算法. 该算法提取分段语音的声纹梅尔频率倒谱系数作为感知特征. 为提高算法的安全性,算法利用伪随机序列作为密钥,计算得到梅尔频率倒谱系数与伪随机之间的相关度,最后量化相关值并加密生成感知哈希序列. 语音认证过程中,采用相似性度量函数用来衡量哈希序列之间的距离,同时与汉明距离方法进行了比较. 仿真结果表明,该算法对语音内容保持操作,如重采样、MP3压缩等具有较好的鲁棒性,相似性度量函数也对语音篡改检测定位具有较高的灵敏性.  相似文献   

11.
为了更好地提取图像信号的稀疏特性,提出了一种多方向自回归稀疏模型及其重建算法.多方向自回归稀疏模型利用图像局部统计相关和纹理方向实现了图像稀疏表示.在基于变换的编码框架下,以编码端的变换矩阵为观测矩阵,用多方向自回归稀疏模型代替解码端的反变换.图像仿真结果表明,所提出的技术能改善JPEG图像的质量.  相似文献   

12.
13.
梅尔倒谱系数是一种常用于说话人识别的特征参数,韵律特征是一种描述人的声门特性的参数。为融合MFCC与韵律特征,以图优化说话人确认系统性能,该文采用二次判决的方法来处理这两个特征;参与第二次判决的语音则由通过大量实验制定的判决空间来确定。实验结果表明,采用二次判决时,系统等错误率从仅使用MFCC时的5.56%的下降至4.37%。  相似文献   

14.
PAD三维情感空间中的语音情感识别   总被引:1,自引:0,他引:1  
离散情感描述模型将人类情感标注为离散的形容词标签,该类模型只能表示有限种类的、单一明确的情感类型,而维度情感模型从情感的多个维度量化了复杂情感的隐含状态.另外,常用的语音情感特征梅尔频率倒谱系数(MFCC)存在因分帧处理引起相邻帧谱特征之间相关性被忽略问题,容易丢失很多有用信息.为此本文提出改进方法,从语谱图中提取时间点火序列特征、点火位置信息特征对MFCC进行补充,将这三种特征分别用于语音情感识别,根据识别结果从PAD维度情感模型的三个维度(Pleasure-displeasure愉悦度、Arousal-nonarousal激活度、Dominance-submissiveness优势度)进行相关性分析得到特征的权重系数,加权融合后获得情感语音的最终PAD值,将其映射至PAD三维情感空间中.实验表明,增加的时间点火序列、点火位置信息不但能探测说话人的情感状态,同时考虑了相邻频谱间的互相关信息,与MFCC特征形成互补,在提升基本情感类型离散识别效果的基础上,将识别结果表示为PAD三维情感空间中的坐标点,采用量化的方法揭示情感空间中各种情感的定位与联系,展示出情感语音中糅杂的情感内容,为后续复杂的语音情感分类识别奠定研究基础.  相似文献   

15.
针对传统调制识别中特征提取依赖人工经验的问题,该文提出了一种基于抗噪预处理及稀疏滤波卷积神经网络的智能通信调制识别算法。该算法将调制信号的循环谱作为卷积神经网络的输入图像,并引入低秩表示算法去除循环谱图中的噪声及干扰。在有监督训练卷积神经网络之前,该文设计了一种新型的稀疏滤波准则对网络进行无监督的逐层预训练,从而提升了泛化性能。仿真表明算法在信噪比为0 dB时仍可达94.2%的识别准确率,优于传统方法及相关深度学习方法。  相似文献   

16.
彝语的语音识别与处理是语音信号处理领域的一个新方向.本文在深入分析彝语特点的基础上,对用于汉语孤立词识别的经典端点检测算法进行了改进.探讨了动态时间规整算法(Dynamic Time Warping,DTW)和高效动态时间规整算法(Efficient DTW,EDTW)在彝语孤立词识别中的应用,并提出了两种新算法:基于音节个数的动态时间规整算法(Syllable Number Based Improved DTW,SDTW)和基于音节个数的高效动态时间规整算法(Syllable Number Based Improved EDTW,SEDTW),对特定的彝语语音信号进行识别.实验结果表明,所提出的两种新算法分别在信号识别率和识别时间上比经典算法优越.  相似文献   

17.
针对包含环境噪声和信道失真等噪声的语音处理问题,提出了一种基于自适应心理声学模型的智能语音识别系统,并建立了听觉模型.该模型将心理声学和耳声发射(OAE)合并到了自动语音识别(ASR)系统中,利用AURORA2数据库分别在清洁训练条件和多训练条件下进行试验.结果表明,所提出的特征提取方法可以显著提高词识别率,优于梅尔频率倒谱系数(MFCC)、前向掩蔽(FM)、侧向抑制(LI)和倒谱平均值及方差归一化(CMVN)算法,能够有效地提高智能语音识别系统的性能.  相似文献   

18.
以4200 mm轧机轧制71块钢板的实测数据为基础,利用Matlab人工神经网络工具箱,建立了轧制变形区的应力状态系数的RBF神经网络预测模型.通过分析应力状态系数的影响因素,结合传统的数学模型,确立了网络的输入层参数,并对函数newrb()中宽度系数spread的试验调整,确定了最佳的网络结构形式,提高了模型的预测精度以及网络的泛化能力.测试结果表明,RBF网络模型具有很好的推广能力.与传统的BP神经网络模型相比较,结果表明,RBF网络具有更高的精度和更好的泛化能力.  相似文献   

19.
提出了一种基于随机块特征和自适应词典学习的人脸表情识别方法。利用Haar like特征和人脸几何结构信息可靠定位眼睛和嘴巴;在眼睛和嘴巴附近抽取随机块,构建特征矢量;将特征矢量进行词典学习,得到表情词典;根据待测表情在表情词典上的稀疏分解对表情进行分类。在JAFFE和Cohn kanade表情库中进行了对比实验,结果表明该方法具有较好的识别性能,对噪声和遮挡具有较好的鲁棒性。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号