基于层次注意力机制的高效视觉问答模型 |
| |
作者姓名: | 吝博强 田文洪 |
| |
作者单位: | 电子科技大学 信息与软件工程学院,成都610054;电子科技大学 信息与软件工程学院,成都610054 |
| |
基金项目: | 国家自然科学基金资助项目 |
| |
摘 要: | 视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4%~5%,其他类型的问题回答准确率也有小幅提升。
|
关 键 词: | 视觉问答 注意力机制 特征融合 目标检测 |
收稿时间: | 2019-11-01 |
修稿时间: | 2021-01-15 |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|