基于异构并行神经网络的语音情感识别 Speech Emotion Recognition Based on Heterogeneous Parallel Neural Network期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于异构并行神经网络的语音情感识别

引用本文：	张会云,黄鹤鸣.基于异构并行神经网络的语音情感识别[J].计算机工程,2022,48(4):113-118.

作者姓名：	张会云黄鹤鸣

作者单位：	1. 青海师范大学计算机学院, 西宁 810008;2. 藏语智能信息处理及应用国家重点实验室, 西宁 810008

基金项目：	国家自然科学基金（62066039）；

摘要：	提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL，采用长短时记忆网络提取语音情感的时间序列特征，使用卷积操作提取语音空间谱特征，通过将时间信息和空间信息相结合共同表征语音情感，提高预测结果的准确率。利用注意力机制，根据不同时间序列特征对语音情感的贡献程度分配权重，实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征，并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明，AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率，相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。
关键词：	语音情感识别谱特征韵律特征注意力机制异构并行分支循环神经网络
收稿时间：	2021-03-10
修稿时间：	2021-04-27
Speech Emotion Recognition Based on Heterogeneous Parallel Neural Network

ZHANG Huiyun,HUANG Heming.Speech Emotion Recognition Based on Heterogeneous Parallel Neural Network[J].Computer Engineering,2022,48(4):113-118.

Authors:	ZHANG Huiyun HUANG Heming

Affiliation:	1. Computer College, Qinghai Normal University, Xining 810008, China;2. State Key Laboratory of Tibetan Intelligent Information Processing and Application, Xining 810008, China

Abstract:

Keywords:	Speech Emotion Recognition(SER) spectral feature prosodic feature attention mechanism heterogeneous parallel branch Recurrent Neural Network(RNN)

	点击此处可从《计算机工程》浏览原始摘要信息
	点击此处可从《计算机工程》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏