首页 | 本学科首页   官方微博 | 高级检索  
     

融合语音、脑电和人脸表情的多模态情绪识别
引用本文:方伟杰,张志航,王恒畅,梁艳,潘家辉.融合语音、脑电和人脸表情的多模态情绪识别[J].计算机系统应用,2023,32(1):337-347.
作者姓名:方伟杰  张志航  王恒畅  梁艳  潘家辉
作者单位:华南师范大学 软件学院, 佛山 528225
基金项目:科技创新2030“脑科学与类脑研究”重点项目(2022ZD0208900); 国家自然科学基金面上项目(62076103)
摘    要:本文提出了一种多模态情绪识别方法, 该方法融合语音、脑电及人脸的情绪识别结果来从多个角度综合判断人的情绪, 有效地解决了过去研究中准确率低、模型鲁棒性差的问题. 对于语音信号, 本文设计了一个轻量级全卷积神经网络, 该网络能够很好地学习语音情绪特征且在轻量级方面拥有绝对的优势. 对于脑电信号, 本文提出了一个树状LSTM模型, 可以全面学习每个阶段的情绪特征. 对于人脸信号, 本文使用GhostNet进行特征学习, 并改进了GhostNet的结构使其性能大幅提升. 此外, 我们设计了一个最优权重分布算法来搜寻各模态识别结果的可信度来进行决策级融合, 从而得到更全面、更准确的结果. 上述方法在EMO-DB与CK+数据集上分别达到了94.36%与98.27%的准确率, 且提出的融合方法在MAHNOB-HCI数据库的唤醒效价两个维度上分别得到了90.25%与89.33%的准确率. 我们的实验结果表明, 与使用单一模态以及传统的融合方式进行情绪识别相比, 本文提出的多模态情绪识别方法有效地提高了识别准确率.

关 键 词:多模态情绪识别  决策级融合  轻量级模型  LSTM  GhostNet  深度学习
收稿时间:2022/6/1 0:00:00
修稿时间:2022/7/1 0:00:00

Multimodal Emotion Recognition Based on Speech, EEG and Facial Expression
FANG Wei-Jie,ZHANG Zhi-Hang,WANG Heng-Chang,LIANG Yan,PAN Jia-Hui.Multimodal Emotion Recognition Based on Speech, EEG and Facial Expression[J].Computer Systems& Applications,2023,32(1):337-347.
Authors:FANG Wei-Jie  ZHANG Zhi-Hang  WANG Heng-Chang  LIANG Yan  PAN Jia-Hui
Affiliation:School of Software, South China Normal University, Foshan 528225, China
Abstract:
Keywords:multimodal emotion recognition  decision-level fusion  lightweight model  LSTM  GhostNet  deep learning
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号