融合场景语义与空间关系的视觉问答 |
| |
引用本文: | 邹品荣,肖锋,张文娟,黄姝娟,张万玉.融合场景语义与空间关系的视觉问答[J].西安工业大学学报,2023(1):56-65. |
| |
作者姓名: | 邹品荣 肖锋 张文娟 黄姝娟 张万玉 |
| |
作者单位: | 1. 西安工业大学兵器科学与技术学院;2. 西安工业大学计算机科学与工程学院;3. 西安工业大学基础学院 |
| |
基金项目: | 国家自然科学基金项目(62171361);;陕西省科技计划项目(2020GY-066);;陕西省自然科学基础研究项目(2021JM-440); |
| |
摘 要: | 为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;将两种关系模型进行线性融合来推理问题答案。研究结果表明:在数据集VQA 2.0上进行实验,与视觉问答算法模型BUTD,DA-NTN,ODA-GCN,Scence GCN,VCTREE-HL和MuRel对比,分别提升测试子集test-dev的准确率4.12%,1.88%,2.77%,2.63%,1.25%和1.41%。该模型能在问题引导下对视觉语义关系进行推理,有效提升视觉问答的准确率。
|
关 键 词: | 视觉问答 注意力机制 语义关系 空间关系 关系编码 |
|
|