首页 | 本学科首页   官方微博 | 高级检索  
     

结合对比学习的图像指导增强视觉问答模型
引用本文:杨有,姚露.结合对比学习的图像指导增强视觉问答模型[J].计算机工程与应用,2024(7):157-166.
作者姓名:杨有  姚露
作者单位:1. 重庆师范大学重庆国家应用数学中心;2. 重庆师范大学计算机与信息科学学院
基金项目:重庆市教委科学技术研究项目(KJZD-K202200504,KJQN-202200564);
摘    要:针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。

关 键 词:视觉问答  注意力机制  相对位置  门控机制  对比学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号