共查询到20条相似文献,搜索用时 15 毫秒
1.
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。 相似文献
2.
3.
语音是人们传递信息内容的同时又表达情感态度的媒介,语音情感识别是人机交互的重要组成部分。由语音情感识别的概念和历史发展进程入手,从6个角度逐步展开对语音情感识别研究体系进行综述。分析常用的情感描述模型,归纳常用的情感语音数据库和不同类型数据库的特点,研究语音情感特征的提取技术。通过比对3种语音情感识别方法的众多学者的多方面研究,得出语音情感识别方法可期望应用场景的态势,展望语音情感识别技术的挑战和发展趋势。 相似文献
4.
语音情感识别在人机交互过程中发挥极为重要的作用,近年来备受关注.目前,大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试.然而,在实际应用中训练集和测试集可能来自不同的情感数据库.由于这种不同情感数据库的分布存在巨大差异性,导致大多数的语音情感识别方法取得的跨库识别性能不尽人意.为此,近年来不少研究者开始聚焦跨库语音情感识别方法的研究.本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展,尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳.首先,介绍了语音情感识别中常用的情感数据库,然后结合深度学习技术,从监督、无监督和半监督学习角度出发,总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况,最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望. 相似文献
5.
针对语音情感识别中的特征提取的问题,提出了一种新的特征提取方式,利用深度神经网络(DNN)中的深度信念网络(DBNs)自动提取语音信号中情感特征.通过训练一个5层的深度信念网络提取语音情感特征,把连续多帧的语音并在一起,构成一个高维的特征,把深度信念网络训练完的特征作为非线性支持向量机(SVM)分类器的输入端,最终建立一个语音情感识别多分类器系统.其识别率为86.5%比传统的基于提取句子的时间构造、振幅构造、基频构造等特征的方法提高7%. 相似文献
6.
7.
8.
9.
语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。 相似文献
10.
语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。 相似文献
11.
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。 相似文献
12.
人类的语音情感变化是一个抽象的动态过程,难以使用静态信息对其情感交互进行描述,而人工智能的兴起为语音情感识别的发展带来了新的契机。从语音情感识别的概念和在国内外发展的历史进程入手,分别从5个方面对近些年关于语音情感识别的研究成果进行了归纳总结。介绍了语音情感特征,归纳总结了各种语音特征参数对语音情感识别的意义。分别对语音情感数据库的分类及特点、语音情感识别算法的分类及优缺点、语音情感识别的应用以及语音情感识别现阶段所遇到的挑战进行了详细的阐述。立足于研究现状对语音情感识别的未来研究及其发展进行了展望。 相似文献
13.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析. 相似文献
14.
15.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。 相似文献
16.
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。 相似文献
17.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。 相似文献
18.
19.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法.该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural networ... 相似文献
20.
由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。 相似文献