首页 | 本学科首页   官方微博 | 高级检索  
     

基于深度残差收缩网络多特征融合语音情感识别
引用本文:李瑞航,吴红兰,孙有朝,吴华聪. 基于深度残差收缩网络多特征融合语音情感识别[J]. 数据采集与处理, 2022, 37(3): 542-554. DOI: 10.16337/j.1004?9037.2022.03.005
作者姓名:李瑞航  吴红兰  孙有朝  吴华聪
作者单位:南京航空航天大学民航学院,南京211106
基金项目:国家自然科学基金(U2033202,52172387,U1333119)。
摘    要:针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。

关 键 词:深度学习  语音情感识别  深度残差收缩网络  注意力机制  多特征融合
收稿时间:2021-12-28
修稿时间:2022-03-25

Multi-feature Fusion Speech Emotion Recognition Based on Deep Residual Shrinkage Network
LI Ruihang,WU Honglan,SUN Youchao,WU Huacong. Multi-feature Fusion Speech Emotion Recognition Based on Deep Residual Shrinkage Network[J]. Journal of Data Acquisition & Processing, 2022, 37(3): 542-554. DOI: 10.16337/j.1004?9037.2022.03.005
Authors:LI Ruihang  WU Honglan  SUN Youchao  WU Huacong
Affiliation:College of Civil Aviation, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
Abstract:
Keywords:deep learning  speech emotion recognition(SER)  deep residual shrinkage network(DRSN)  attention mechanism  multi-feature fusion
本文献已被 万方数据 等数据库收录!
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号