首页 | 本学科首页   官方微博 | 高级检索  
     

基于异构并行神经网络的语音情感识别
引用本文:张会云,黄鹤鸣.基于异构并行神经网络的语音情感识别[J].计算机工程,2022,48(4):113-118.
作者姓名:张会云  黄鹤鸣
作者单位:1. 青海师范大学 计算机学院, 西宁 810008;2. 藏语智能信息处理及应用国家重点实验室, 西宁 810008
基金项目:国家自然科学基金(62066039);
摘    要:提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。

关 键 词:语音情感识别  谱特征  韵律特征  注意力机制  异构并行分支  循环神经网络  
收稿时间:2021-03-10
修稿时间:2021-04-27

Speech Emotion Recognition Based on Heterogeneous Parallel Neural Network
ZHANG Huiyun,HUANG Heming.Speech Emotion Recognition Based on Heterogeneous Parallel Neural Network[J].Computer Engineering,2022,48(4):113-118.
Authors:ZHANG Huiyun  HUANG Heming
Affiliation:1. Computer College, Qinghai Normal University, Xining 810008, China;2. State Key Laboratory of Tibetan Intelligent Information Processing and Application, Xining 810008, China
Abstract:
Keywords:Speech Emotion Recognition(SER)  spectral feature  prosodic feature  attention mechanism  heterogeneous parallel branch  Recurrent Neural Network(RNN)  
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号