结合对比学习的图像指导增强视觉问答模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合对比学习的图像指导增强视觉问答模型

引用本文：	杨有,姚露.结合对比学习的图像指导增强视觉问答模型[J].计算机工程与应用,2024(7):157-166.

作者姓名：	杨有姚露

作者单位：	1. 重庆师范大学重庆国家应用数学中心;2. 重庆师范大学计算机与信息科学学院

基金项目：	重庆市教委科学技术研究项目（KJZD-K202200504,KJQN-202200564）；

摘要：	针对现有的注意力编解码视觉问答模型存在两个问题：单一形态图像特征包含视觉信息不完整，以及对问题指导过度依赖，提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器，它基于Transformer语言编码器实现，将单一的图像特征扩展为区域和网格两种形态，根据不同形态特征的相对位置构建互补的空间关系，以解决第一问题。所提模型包含一种视觉引导的语言解码器，将视觉解码的两种图像特征与问题特征二次匹配，通过平行门控引导注意力，自适应地修正不同视觉信息对问题的引导比例，以解决第二问题。所提模型，在训练过程中，引入对比学习损失函数，通过对比模型推理时不同模态特征在隐空间内的相似度，获取更相近的互信息。所提模型，在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率，较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明，所提模型能够获取更相关的语言-视觉信息，并且对不同类型的问题样本具有更强的泛化能力。
关键词：	视觉问答注意力机制相对位置门控机制对比学习

设为首页 | 免责声明 | 关于勤云 | 加入收藏