深度学习图像描述方法分析与展望 Deep-learning-based image captioning:analysis and prospects期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

深度学习图像描述方法分析与展望

引用本文：	赵永强,金芝,张峰,赵海燕,陶政为,豆乘风,徐新海,刘东红.深度学习图像描述方法分析与展望[J].中国图象图形学报,2023,28(9):2788-2816.

作者姓名：	赵永强金芝张峰赵海燕陶政为豆乘风徐新海刘东红

作者单位：	北京大学计算机学院, 北京 100871;北京大学高可信软件技术教育部重点实验室, 北京 100871;军事科学院, 北京 100097

基金项目：	国家重点研发计划资助（2020AAA0109400）;国家自然科学基金项目（61751210）

摘要：	图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究...
关键词：	图像描述深度学习基本能力应用有效性核心技术挑战
收稿时间：	2022/6/24 0:00:00
修稿时间：	2022/9/5 0:00:00
Deep-learning-based image captioning:analysis and prospects

Zhao Yongqiang,Jin Zhi,Zhang Feng,Zhao Haiyan,Tao Zhengwei,Dou Chengfeng,Xu Xinhai,Liu Donghong.Deep-learning-based image captioning:analysis and prospects[J].Journal of Image and Graphics,2023,28(9):2788-2816.

Authors:	Zhao Yongqiang Jin Zhi Zhang Feng Zhao Haiyan Tao Zhengwei Dou Chengfeng Xu Xinhai Liu Donghong

Affiliation:	School of Computer Science, Peking University, Beijing 100871, China;Key Laboratory of High Confidence Software Technologies(Peking University), Ministry of Education, Beijing 100871, China;Academy of Military Sciences, Beijing 100097, China

Abstract:

Keywords:	image caption deep learning basic capabilities application effectiveness key technical challenges

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏