首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。  相似文献   

2.
近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。  相似文献   

3.
基于神经网络的语音情感识别   总被引:4,自引:1,他引:3       下载免费PDF全文
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。  相似文献   

4.
高适  金宇  黄宇 《信息与电脑》2023,(18):114-116
根据当前的识别需求及标准,提取语音识别基元,采用多目标的方式,提高识别的效率,布设交叉多目标识别矩阵,同时改进卷积神经网络连续语音识别模型,采用动态识别规整完成语音识别处理。测试结果表明,与传统面向健壮自动汉语连续语音识别测试组和传统基于改进多带谱减汉语连续语音识别测试组相比,所设计的改进卷积神经网络汉语连续语音识别测试组语音误识率被较好地控制在20%以下,说明在改进卷积神经网络的辅助下,语音识别效果明显改善,针对性更强,具有实际的应用价值。  相似文献   

5.
为解决噪声环境下语音识别率降低以及传统波束形成算法难以处理空间噪声的问题,基于双微阵列结构提出了一种改进的最小方差无畸变响应(MVDR)波束形成方法。首先,采用对角加载提高双微阵列增益,并利用递归矩阵求逆降低计算复杂度;然后,通过后置调制域谱减法对语音作进一步处理,解决了一般谱减法容易产生音乐噪声的问题,有效减小了语音畸变,获得了良好的噪声抑制效果;最后,采用卷积神经网络(CNN)进行语音模型的训练,提取语音深层次的特征,有效地解决了语音信号多样性问题。实验结果表明,提出的方法在经CNN训练的语音识别系统模型中取得了较好的识别效果,在信噪比为10 dB的F16噪声环境下的语音识别率达到了92.3%,具有良好的稳健性。  相似文献   

6.
针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率.  相似文献   

7.
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。  相似文献   

8.
提出一种基于改进GMM模型的耳语情感语音识别方法.该方法在GMM的每个成员通过用矢量量化误差值取代传统GMM的输出概率值来计算模型的得分,使得建模时所需训练数据量减少,并且识别速度有所提高.实验结果表明当训练数据较少时,提出的新的识别方法的实验结果明显好于传统的GMM方法,证明了该方法的有效性.  相似文献   

9.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析.  相似文献   

10.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

11.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

12.
程广涛  巩家昌  李建 《计算机应用》2020,40(5):1465-1469
针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术进一步改善训练模型的识别能力。在公开烟雾数据集上对提出的方法进行实验验证,实验结果表明,所提方法的模型大小只有0.44 MB,在两个测试集上的准确率分别为96.20%和96.81%。  相似文献   

13.
探究了基于卷积神经网络的句子级别的中文文本情感分类,模型以文本经过预处理后得到的词向量作为输入。传统的卷积神经网络是由线性卷积层、池化层和全连接层堆叠起来的,提出以跨通道卷积层替代传统线性卷积滤波器,对基本的卷积神经网络进行改进,提高网络的表达能力。实验表明,改进后的卷积神经网络在保证训练速度的情况下,识别率达到91.89%,优于传统的卷积神经网络,有较好的识别能力。  相似文献   

14.
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。  相似文献   

15.
针对传统卷积神经网络时间成本高的不足,对卷积神经网络进行了改进,减少其卷积核的数量,增加池化方式.为解决真实场景中自动驾驶系统和辅助驾驶系统中的道路交通标志识别问题,将改进的卷积神经网络运用到道路交通标志识别当中,以达到在较短时间内识别出交通标志的目的.以图形数据集GTRSB实景交通标志图像数据作为样本,用改进的卷积神经网络对实景交通标志进行识别,其识别总体准确率达到98.38%.实验结果表明,本方法可以在保持较高识别准确率的同时减少其识别的时间.  相似文献   

16.
目前,基于多模态融合的语音情感识别模型普遍存在无法充分利用多模态特征之间的共性和互补性、无法借助样本特征间的拓扑结构特性对样本特征进行有效地优化和聚合,以及模型复杂度过高的问题。为此,引入图神经网络,一方面在特征优化阶段,将经过图神经网络优化后的文本特征作为共享表示重构基于声学特征的邻接矩阵,使得在声学特征的拓扑结构特性中包含文本信息,达到多模态特征的融合效果;另一方面在标签预测阶段,借助图神经网络充分聚合当前节点的邻接节点所包含的相似性信息对当前节点特征进行全局优化,以提升情感识别准确率。同时为防止图神经网络训练过程中可能出现的过平滑问题,在图神经网络训练前先进行图增强处理。在公开数据集IEMOCAP 和RAVDESS上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率和更低的模型复杂度,并且模型各个组成部分均对模型性能提升有所贡献。  相似文献   

17.
利用深度卷积神经网络提高未知噪声下的语音增强性能   总被引:2,自引:0,他引:2  
为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能,本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上,语音和噪声信号的局部特征都具有强相关性的特点,采用深度卷积神经网络(Deep convolutional neural network,DCNN)建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标,并建立合理的网络结构,提出了基于深度卷积神经网络的语音增强方法.实验结果表明,在未知噪声条件下,本文方法相比基于深度神经网络(Deep neural network,DNN)的方法在语音质量和可懂度两种指标上都有明显提高.  相似文献   

18.
微博是互联网舆论演化的重要平台,对微博进行情感分析,有助于及时掌握社会热点和舆论动态。由于微博数据内容简短、特征稀疏、富含新词等特征,微博情感分类依然是一个较难的任务。传统的文本情感分类方法主要基于情感词典或者机器学习等,但这些方法存在数据稀疏的问题,而且忽略了词的语义、语序等信息。为了解决上述问题,提出一种基于卷积神经网络的中文微博情感分类模型CNNSC,实验表明相比目前的主流方法,CNNSC的准确率提高了3.4%。  相似文献   

19.
基于神经网络的语音增强任务中相位估计不准确会导致增强语音质量差,针对这一问题,提出了一种基于复数卷积循环神经网络的语音增强算法,在复数域实现语音幅度和相位的同时增强,以提高增强语音的质量。使用基于复数卷积网络的编码器在复数域提取语音局部特征,再利用复数卷积循环网络对语音的长时信息进行建模,最后使用复数卷积上采样解码器计算语音复数时频掩蔽,实现语音幅度与相位增强。在公开数据集上的实验结果表明,使用所提方法得到的增强语音在语音质量和信噪比提升中均优于主流方法,验证了该网络模型在语音增强任务中的有效性。  相似文献   

20.
针对传统英语多语音识别准确率低的问题,提出一种基于轻量化神经网络的英语语音识别及控制系统。其中,首先采用MFCC方法对输入语音特征进行提取;然后以时延神经网络TDNN为基础网络,通过步进裁剪得到轻量化的神经网络;最后将提取到的多语音特征输入神经网络中进行识别。结果表明,经过轻量化的神经网络其大小由77 M降低至21 M;在Dev93和Eval92数据集上的测试,其WER值分别为5.12%和3.99%,相较于直接裁剪和未裁剪的WER值更低,英语语音识别准确率更高。由此得出,本研究构建的轻量化神经网络可用于多语音的识别,进而可拓展至包含英语交流机器人在内的领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号