基于多模态交互网络的图像描述期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多模态交互网络的图像描述

引用本文：	段毛毛,魏燚伟.基于多模态交互网络的图像描述[J].计算机技术与发展,2024(5):44-51.

作者姓名：	段毛毛魏燚伟

作者单位：	中国石油大学(北京)克拉玛依校区石油学院

摘要：	在各类的图像描述方法中，多模态方法主要将视觉和文本两种模态的信息作为输入，以获得有效的多级信息。然而，其中的多数方法未考虑两种模态数据之间的关系，仅孤立地使用这两种模态的数据。为了在不同模态之间建立复杂的交互，充分利用模态之间的关系提升图像描述效果，首先，引入双向注意流模块(Bi-Directional Attention Flow, BiDAF),将自注意力机制升级为双向方式；然后，通过一个只需一个遗忘门就可以实现与长短期记忆网络(Long Short-Term Memory, LSTM)相同的功能的门控线性记忆模块(Gated Linear Memory, GLM)有效降低解码器的复杂度，并捕获多模态的交互信息；最后，将BiDAF和GLM分别应用为图像描述模型的编码器和解码器，形成多模态交互网络(Multimodal Interactive Network, MINet)。在公共数据集MS COCO上的实验结果表明，MINet与现有的多模态方法相比不仅具有更简洁的解码器、更好的图像描述效果、更高的评价分数，且无需进行预训练，图像描述更高效。
关键词：	多模态图像描述自注意力长短期记忆网络视觉文本

设为首页 | 免责声明 | 关于勤云 | 加入收藏