融合ELMo词嵌入的多模态Transformer的图像描述算法 Image Caption with ELMo Embedding and Multimodal Transformer期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合ELMo词嵌入的多模态Transformer的图像描述算法

引用本文：	杨文瑞,沈韬,朱艳,曾凯,刘英莉.融合ELMo词嵌入的多模态Transformer的图像描述算法[J].计算机工程与应用,2022,58(21):223-231.

作者姓名：	杨文瑞沈韬朱艳曾凯刘英莉

作者单位：	1.昆明理工大学信息工程与自动化学院，昆明 650500 2.昆明理工大学云南省计算机重点实验室，昆明 650500

摘要：	图像描述任务旨在针对一张给出的图像产生其对应描述。针对现有算法中语义信息理解不够全面的问题，提出了一个针对图像描述领域的多模态Transformer模型。该模型在注意模块中同时捕捉模态内和模态间的相互作用；更进一步使用ELMo获得包含上下文信息的文本特征，使模型获得更加丰富的语义描述输入。该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述。该模型在Microsoft COCO数据集上进行了广泛的实验，实验结果表明，相比于使用bottom-up注意力机制以及LSTM进行图像描述的基线模型具有较大的效果提升，模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有0.7、0.4、0.9、1.3、0.6、4.9个百分点的提高。
关键词：	Transformer 图像描述 ELMo 注意力机制
Image Caption with ELMo Embedding and Multimodal Transformer

YANG Wenrui,SHEN Tao,ZHU Yan,ZENG Kai,LIU Yingli.Image Caption with ELMo Embedding and Multimodal Transformer[J].Computer Engineering and Applications,2022,58(21):223-231.

Authors:	YANG Wenrui SHEN Tao ZHU Yan ZENG Kai LIU Yingli

Affiliation:	1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China 2.Yunnan Key Laboratory of Computer Technologies Application, Kunming University of Science and Technology, Kunming 650500, China

Abstract:

Keywords:	Transformer image caption ELMo attention mechanism

	点击此处可从《计算机工程与应用》浏览原始摘要信息
	点击此处可从《计算机工程与应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏