首页 | 本学科首页   官方微博 | 高级检索  
     

基于CLIP和交叉注意力的多模态情感分析模型
引用本文:陈燕,赖宇斌,肖澳,廖宇翔,陈宁江.基于CLIP和交叉注意力的多模态情感分析模型[J].郑州大学学报(工学版),2024(2):42-50.
作者姓名:陈燕  赖宇斌  肖澳  廖宇翔  陈宁江
作者单位:1. 广西大学计算机与电子信息学院;2. 广西大学广西多媒体通信与网络技术重点实验室
基金项目:广西壮族自治区科学研究与技术开发计划资助项目(桂科AA20302002-3);;广西壮族自治区自然科学基金资助项目(2020GXNSFAA159090);
摘    要:针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。

关 键 词:情感分析  多模态学习  交叉注意力  CLIP模型  Transformer  特征融合
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号