基于多重注意结构的图像密集描述生成方法研究EI北大核心CSCD Dense Captioning Method Based on Multi-attention Structure期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多重注意结构的图像密集描述生成方法研究EI北大核心CSCD

引用本文：	刘青茹,李刚,赵创,顾广华,赵耀. 基于多重注意结构的图像密集描述生成方法研究EI北大核心CSCD[J]. 自动化学报, 2022, 48(10): 2537-2548. DOI: 10.16383/j.aas.c220093

作者姓名：	刘青茹李刚赵创顾广华赵耀

作者单位：	1.燕山大学信息科学与工程学院秦皇岛 066004

基金项目：	国家自然科学基金(62072394), 河北省自然科学基金(F2021203019), 河北省重点实验室项目(202250701010046)资助

摘要：	图像密集描述旨在为复杂场景图像提供细节描述语句.现有研究方法虽已取得较好成绩,但仍存在以下两个问题:1)大多数方法仅将注意力聚焦在网络所提取的深层语义信息上,未能有效利用浅层视觉特征中的几何信息;2)现有方法致力于改进感兴趣区域间上下文信息的提取,但图像内物体空间位置信息尚不能较好体现.为解决上述问题,提出一种基于多重注意结构的图像密集描述生成方法—MAS-ED (Multiple attention structure-encoder decoder). MAS-ED通过多尺度特征环路融合(Multi-scale feature loop fusion, MFLF)机制将多种分辨率尺度的图像特征进行有效集成,并在解码端设计多分支空间分步注意力(Multi-branch spatial step attention, MSSA)模块,以捕捉图像内物体间的空间位置关系,从而使模型生成更为精确的密集描述文本.实验在Visual Genome数据集上对MAS-ED进行评估,结果表明MASED能够显著提升密集描述的准确性,并可在文本中自适应加入几何信息和空间位置信息.基于长短期记忆网络(Longshort term memory, LSTM)解码网络框架, MAS-ED方法性能在主流评价指标上优于各基线方法.
关键词：	图像密集描述多重注意结构多尺度特征环路融合多分支空间分步注意力
收稿时间：	2022-02-10
Dense Captioning Method Based on Multi-attention Structure

Affiliation:	1.School of Information Science and Engineering, Yanshan University, Qinhuangdao 0660042.Hebei Provincial Key Laboratory of Information Transmission and Signal Processing, Qinhuangdao 0660043.Institute of Information Science, Beijing Jiaotong University, Beijing 100044

Abstract:

Keywords:
本文献已被维普等数据库收录！
	点击此处可从《自动化学报》浏览原始摘要信息
	点击此处可从《自动化学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏