结合对比学习的图像指导增强视觉问答模型 |
| |
引用本文: | 杨有,姚露.结合对比学习的图像指导增强视觉问答模型[J].计算机工程与应用,2024(7):157-166. |
| |
作者姓名: | 杨有 姚露 |
| |
作者单位: | 1. 重庆师范大学重庆国家应用数学中心;2. 重庆师范大学计算机与信息科学学院 |
| |
基金项目: | 重庆市教委科学技术研究项目(KJZD-K202200504,KJQN-202200564); |
| |
摘 要: | 针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。
|
关 键 词: | 视觉问答 注意力机制 相对位置 门控机制 对比学习 |
|