基于视觉关联与上下文双注意力的图像描述生成方法 Image Captioning Based on Visual Relevance and Context Dual Attention期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于视觉关联与上下文双注意力的图像描述生成方法

引用本文：	刘茂福,施琦,聂礼强.基于视觉关联与上下文双注意力的图像描述生成方法[J].软件学报,2022,33(9):3210-3222.

作者姓名：	刘茂福施琦聂礼强

作者单位：	武汉科技大学计算机科学与技术学院, 湖北武汉 430065;山东大学计算机科学与技术学院, 山东青岛 266237

摘要：	图像描述生成有着重要的理论意义与应用价值，在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法，在同一时刻融合当前词和视觉信息以生成目标词，忽略了视觉连贯性及上下文信息，导致生成描述与参考描述存在差异.针对这一问题，本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法（visual relevance and context dual attention，简称VRCDA）.视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性，上下文注意力从全局上下文中获取更完整的语义信息，以充分利用上下文信息，进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证，结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述，相比于主流的图像描述生成方法，在各项评价指标上均取得了较高的提升.
关键词：	图像描述生成双注意力机制视觉关联注意力上下文注意力
收稿时间：	2021/6/30 0:00:00
修稿时间：	2022/1/14 0:00:00
Image Captioning Based on Visual Relevance and Context Dual Attention

LIU Mao-Fu,SHI Qi,NIE Li-Qiang.Image Captioning Based on Visual Relevance and Context Dual Attention[J].Journal of Software,2022,33(9):3210-3222.

Authors:	LIU Mao-Fu SHI Qi NIE Li-Qiang

Affiliation:	School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China; School of Computer Science and Technology, Shandong University, Qingdao 266237, China

Abstract:

Keywords:	image captioning dual attention mechanism visual relevance attention context attention

	点击此处可从《软件学报》浏览原始摘要信息
	点击此处可从《软件学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏