基于CLIP和交叉注意力的多模态情感分析模型 |
| |
引用本文: | 陈燕,赖宇斌,肖澳,廖宇翔,陈宁江.基于CLIP和交叉注意力的多模态情感分析模型[J].郑州大学学报(工学版),2024(2):42-50. |
| |
作者姓名: | 陈燕 赖宇斌 肖澳 廖宇翔 陈宁江 |
| |
作者单位: | 1. 广西大学计算机与电子信息学院;2. 广西大学广西多媒体通信与网络技术重点实验室 |
| |
基金项目: | 广西壮族自治区科学研究与技术开发计划资助项目(桂科AA20302002-3);;广西壮族自治区自然科学基金资助项目(2020GXNSFAA159090); |
| |
摘 要: | 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。
|
关 键 词: | 情感分析 多模态学习 交叉注意力 CLIP模型 Transformer 特征融合 |
|