基于门控图卷积网络和协同注意力的视觉问答 |
| |
引用本文: | 刘传.基于门控图卷积网络和协同注意力的视觉问答[J].计算机与数字工程,2023(4):860-865. |
| |
作者姓名: | 刘传 |
| |
作者单位: | 安徽建筑大学数理学院 |
| |
基金项目: | 国家自然科学基金项目(编号:11801007);;安徽省教育厅高校研究生科学研究项目(编号:YJS20210510)资助; |
| |
摘 要: | 经典的视觉注意力模型缺乏视觉对象间空间关系的推理能力,忽略了图像和问题文本之间的密集语义交互,导致在预测答案过程中对噪声的处理能力不足。针对上述问题,提出了一种基于门控图卷积网络和协同注意力的视觉问答模型。该模型基于图像中视觉对象之间的相对空间位置构建空间关系图;同时以问题为引导,在图卷积网络的基础上增加门控机制,能够动态控制具有不同空间关系的邻居对节点的贡献程度;然后将问题的词特征和带有空间关系感知能力的视觉特征输入双向引导的协同注意力模块,共同学习它们之间的密集语义交互。在VQA2.0数据集进行实验,结果表明:该模型具有较强的显式关系推理能力,在test-std测试集的总体准确率为70.90%,优于该数据集上的经典模型,有效地提升了视觉问答的准确率。
|
关 键 词: | 视觉问答 空间关系图 门控图卷积网络 协同注意力 |
|
|