基于多模态融合的视觉问答传输注意网络期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多模态融合的视觉问答传输注意网络

作者姓名：	王茂彭亚雄陆安江

作者单位：	贵州大学大数据与信息工程学院

基金项目：	贵州省科技重大专项([2016]3022)；

摘要：	针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点，文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分，分别利用GloVe词嵌入+LSTM提取问题特征，并使用ResNet-152网络提取图像特征。通过3层传输注意网络进行多模态融合来学习全局多模态嵌入信息，进而使用该嵌入重新校准输入特征。文中设计了一个多模态传输注意学习架构，通过对传输网络进行重叠计算，使组合特征聚焦在图像和问题的细粒度部分，提高了预测答案的准确率。在VQA v1.0数据集上的实验结果表明，该模型的总体准确率达到了69.92%,显著优于其他5种主流视觉问答模型的准确率，证明了该模型的有效性和鲁棒性。
关键词：	视觉问答多模态特征组合特征多模态嵌入注意力传输网络细粒度多模态融合