首页 | 本学科首页   官方微博 | 高级检索  
     

基于多模态融合的视觉问答传输注意网络
作者姓名:王茂  彭亚雄  陆安江
作者单位:贵州大学大数据与信息工程学院
基金项目:贵州省科技重大专项([2016]3022);
摘    要:针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征。通过3层传输注意网络进行多模态融合来学习全局多模态嵌入信息,进而使用该嵌入重新校准输入特征。文中设计了一个多模态传输注意学习架构,通过对传输网络进行重叠计算,使组合特征聚焦在图像和问题的细粒度部分,提高了预测答案的准确率。在VQA v1.0数据集上的实验结果表明,该模型的总体准确率达到了69.92%,显著优于其他5种主流视觉问答模型的准确率,证明了该模型的有效性和鲁棒性。

关 键 词:视觉问答  多模态特征  组合特征  多模态嵌入  注意力  传输网络  细粒度  多模态融合
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号