首页 | 本学科首页   官方微博 | 高级检索  
     

基于门控机制的联合关系推理视觉问答模型
作者姓名:胡婷  何利力
作者单位:浙江理工大学计算机科学与技术学院
摘    要:与问题相关的视觉对象提取准确度不够,以及视觉对象之间的关系推理能力不足,是现有视觉问答模型视觉推理能力不足的主要原因。针对这两个方面的问题,本文提出一种基于门控机制的联合关系推理视觉问答模型(VARG)。该模型利用视觉注意力机制关注多个与问题相关的区域,通过筛选机制提取与问题最相关的前N个区域,并在此基础上建立视觉关系特征进行视觉关系推理,引入门控选择机制,动态的控制视觉特征和视觉关系特征对于答案的贡献,以此提升模型视觉推理能力。经在VQA V2数据集上进行实验,证明了模型的有效性。

关 键 词:视觉问答  注意力机制  门控机制  视觉关系推理
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号