首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。  相似文献   

2.
基于神经网络的语音情感识别   总被引:4,自引:1,他引:3       下载免费PDF全文
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。  相似文献   

3.
语音情感识别是实现人机交互的关键,如何提升语音情感识别的准确率以及更有效地提取具有情感代表性的特征是语音情感识别所面临的问题之一。针对以上问题,构建了一种包含空间特征提取模块和时序特征提取模块的双通道时空语音情感识别模型ASGRU-CNN。模型总体框架由两条并行分支组成:第一分支为空间特征提取模块,由三维卷积、二维卷积及池化操作共同构成级联结构;第二分支为时序特征提取模块,由切片循环神经网络内嵌门控循环单元及注意力机制构成。模型以韵律特征及谱特征的融合特征作为输入特征,经过双分支处理后,进入全连接层进行语音情感分类。在CASIA与EMO-DB数据库上进行相关实验,并通过数据扩充增加训练样本,与其它语音情感识别模型实验结果相比,所提出的模型具有较好的鲁棒性和泛化性。  相似文献   

4.
语音情感识别是计算机理解人类情感最直接的方式,是实现人机交互智能化的重要渠道,但识别模型的性能需要进一步提升。为实现这一目标,提出一种基于循环卷积神经网络的语音情感识别模型ARCNN-GAP。其中,循环卷积层具有弹性路径,在确保网络深度的同时能保证优化时的梯度回传,提取更加有效的情感特征;全局平均池化运算可以在减少计算复杂度的同时降低过拟合风险;而注意力机制能够使模型更多关注情感相关特征。使用韵律特征和谱特征的融合特征在CASIA和EMO-DB数据库上进行研究,分别取得了83.29%和75.28%的识别率。实验结果表明:ARCNN-GAP具有更好的识别性能和泛化性。  相似文献   

5.
语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。  相似文献   

6.
语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。  相似文献   

7.
为了构建高效的语音情感识别模型,充分利用不同情感特征所包含的信息,将语谱图特征和LLDs特征相结合,构建了一种基于自注意力机制的双通道卷积门控循环网络模型。同时,为了解决交叉熵损失函数无法增大语音情感特征类内紧凑性和类间分离性的问题,结合一致性相关系数提出新的损失函数——一致性相关损失(CCC-Loss)。将语谱图和LLDs特征分别输入CGRU模型提取深层特征并引入自注意力机制为关键时刻赋予更高的权重;使用CCC-Loss与交叉熵损失共同训练模型,CCC-Loss将不同类情感样本的一致性相关系数之和与同类情感样本的一致性相关系数之和的比值作为损失项,改善了样本特征的类内类间相关性,提高了模型的特征判别能力;将两个网络的分类结果进行决策层融合。所提出的方法在EMODB、RAVDESS以及CASIA数据库上分别取得了92.90%、88.54%以及90.58%的识别结果,相比于ACRNN、DSCNN等基线模型识别效果更好。  相似文献   

8.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析.  相似文献   

9.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

10.
针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率.  相似文献   

11.
基于粒子群优化神经网络的语音情感识别   总被引:1,自引:0,他引:1  
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。  相似文献   

12.
近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。  相似文献   

13.
语音不仅包含说话人所要表达的语义信息,也蕴含着说话人所要表达的情感信息.语音情感识别是人机情感交互的关键,对语音情感的有效识别能够提升语音可懂度,使各种智能设备最大限度理解用户意图,提高机器人性化水平,从而更好地为人类服务.采用文献研究法从语音情感语料库、语音情感特征提取、语音情感模型的构建以及语音情感识别的应用等方面...  相似文献   

14.
目前,基于多模态融合的语音情感识别模型普遍存在无法充分利用多模态特征之间的共性和互补性、无法借助样本特征间的拓扑结构特性对样本特征进行有效地优化和聚合,以及模型复杂度过高的问题。为此,引入图神经网络,一方面在特征优化阶段,将经过图神经网络优化后的文本特征作为共享表示重构基于声学特征的邻接矩阵,使得在声学特征的拓扑结构特性中包含文本信息,达到多模态特征的融合效果;另一方面在标签预测阶段,借助图神经网络充分聚合当前节点的邻接节点所包含的相似性信息对当前节点特征进行全局优化,以提升情感识别准确率。同时为防止图神经网络训练过程中可能出现的过平滑问题,在图神经网络训练前先进行图增强处理。在公开数据集IEMOCAP 和RAVDESS上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率和更低的模型复杂度,并且模型各个组成部分均对模型性能提升有所贡献。  相似文献   

15.
语音情感识别的研究进展   总被引:4,自引:0,他引:4  
总结了语音情感识别研究的主要成果,分析了带有情感的语音的特征,阐述了现有的几种从语音中提取情感的方法,并对其进行分析比较,指出了语音情感识别技术的可能发展趋势。  相似文献   

16.
基于径向基神经网络的语音识别技术   总被引:3,自引:0,他引:3  
深入分析研究了径向基神经网络的优缺点,并对其进行了改进,分析讨论了语音识别研究中,径向基神经网络的设计原则以及特征参数等对语音识别结果的影响。将其应用于数字语音识别中,实验结果表明,基于改进型的径向基神经网络的语音识别方法有着较好的识别性能和应用效果。针对非特定人的孤立词识别,识别率可以达到90%以上。  相似文献   

17.
情感语音包含语义内容和情感特征,为了寻找最能表达情感的特征,采用基于Attention机制的先进LSTM网络提取语音情感相关特征:该先进LSTM网络当前时刻的输入不仅与前一时刻有关,还与先前所有时刻有关,能够提取语音片段中的所有特征;同时,使用Attention机制选取最能表达情感的特征.实验结果表明:不同参数和优化器...  相似文献   

18.
人类的语音情感变化是一个抽象的动态过程,难以使用静态信息对其情感交互进行描述,而人工智能的兴起为语音情感识别的发展带来了新的契机。从语音情感识别的概念和在国内外发展的历史进程入手,分别从5个方面对近些年关于语音情感识别的研究成果进行了归纳总结。介绍了语音情感特征,归纳总结了各种语音特征参数对语音情感识别的意义。分别对语音情感数据库的分类及特点、语音情感识别算法的分类及优缺点、语音情感识别的应用以及语音情感识别现阶段所遇到的挑战进行了详细的阐述。立足于研究现状对语音情感识别的未来研究及其发展进行了展望。  相似文献   

19.
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。  相似文献   

20.
针对孤立词语音识别的任务,采用一维卷积神经网络(CNN)作为声学模型,利用卷积核在时间轴上的移动来反映语音信号的时变性,从而提高识别性能。然后引入了反映说话人特征的身份认证矢量i-vector,通过i-vector特征消除说话人差异对识别造成的影响,进一步提高识别性能。在实验室自建语音库上的实验表明,基于这两种方法的识别系统达到了91%的识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号