排序方式: 共有6条查询结果,搜索用时 0 毫秒
1
1.
2.
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降。本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰。由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达。本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验,在IEMOCAP上采用循环填充法的加权精度(WA)和非加权精度(UA)分别达到73.2%和70.9%,采用本文提出模型的WA和UA分别达到76.0%和73.4%。 相似文献
3.
4.
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。 相似文献
5.
语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。 相似文献
6.
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。 相似文献
1