基于CLIP和交叉注意力的多模态情感分析模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于CLIP和交叉注意力的多模态情感分析模型

引用本文：	陈燕,赖宇斌,肖澳,廖宇翔,陈宁江.基于CLIP和交叉注意力的多模态情感分析模型[J].郑州大学学报(工学版),2024(2):42-50.

作者姓名：	陈燕赖宇斌肖澳廖宇翔陈宁江

作者单位：	1. 广西大学计算机与电子信息学院;2. 广西大学广西多媒体通信与网络技术重点实验室

基金项目：	广西壮族自治区科学研究与技术开发计划资助项目(桂科AA20302002-3)；;广西壮族自治区自然科学基金资助项目(2020GXNSFAA159090)；

摘要：	针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题，提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先，该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征；其次，使用交叉注意力机制将图像特征向量和文本特征向量进行交互，以加强不同模态之间的信息传递；最后，利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明：该模型比其他多模态模型准确率提高5百分点至14百分点，F1值提高3百分点至12百分点，验证了该模型的优越性，并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性，同时利用不确定性损失来提高模型的鲁棒性和泛化能力。
关键词：	情感分析多模态学习交叉注意力 CLIP模型 Transformer 特征融合

设为首页 | 免责声明 | 关于勤云 | 加入收藏