首页 | 本学科首页   官方微博 | 高级检索  
     

基于视觉关联与上下文双注意力的图像描述生成方法
引用本文:刘茂福,施琦,聂礼强.基于视觉关联与上下文双注意力的图像描述生成方法[J].软件学报,2022,33(9):3210-3222.
作者姓名:刘茂福  施琦  聂礼强
作者单位:武汉科技大学 计算机科学与技术学院, 湖北 武汉 430065;山东大学 计算机科学与技术学院, 山东 青岛 266237
摘    要:图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.

关 键 词:图像描述生成  双注意力机制  视觉关联注意力  上下文注意力
收稿时间:2021/6/30 0:00:00
修稿时间:2022/1/14 0:00:00

Image Captioning Based on Visual Relevance and Context Dual Attention
LIU Mao-Fu,SHI Qi,NIE Li-Qiang.Image Captioning Based on Visual Relevance and Context Dual Attention[J].Journal of Software,2022,33(9):3210-3222.
Authors:LIU Mao-Fu  SHI Qi  NIE Li-Qiang
Affiliation:School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China; School of Computer Science and Technology, Shandong University, Qingdao 266237, China
Abstract:
Keywords:image captioning  dual attention mechanism  visual relevance attention  context attention
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号