首页 | 本学科首页   官方微博 | 高级检索  
     

深度学习图像描述方法分析与展望
引用本文:赵永强,金芝,张峰,赵海燕,陶政为,豆乘风,徐新海,刘东红.深度学习图像描述方法分析与展望[J].中国图象图形学报,2023,28(9):2788-2816.
作者姓名:赵永强  金芝  张峰  赵海燕  陶政为  豆乘风  徐新海  刘东红
作者单位:北京大学计算机学院, 北京 100871;北京大学高可信软件技术教育部重点实验室, 北京 100871;军事科学院, 北京 100097
基金项目:国家重点研发计划资助(2020AAA0109400);国家自然科学基金项目(61751210)
摘    要:图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究...

关 键 词:图像描述  深度学习  基本能力  应用有效性  核心技术挑战
收稿时间:2022/6/24 0:00:00
修稿时间:2022/9/5 0:00:00

Deep-learning-based image captioning:analysis and prospects
Zhao Yongqiang,Jin Zhi,Zhang Feng,Zhao Haiyan,Tao Zhengwei,Dou Chengfeng,Xu Xinhai,Liu Donghong.Deep-learning-based image captioning:analysis and prospects[J].Journal of Image and Graphics,2023,28(9):2788-2816.
Authors:Zhao Yongqiang  Jin Zhi  Zhang Feng  Zhao Haiyan  Tao Zhengwei  Dou Chengfeng  Xu Xinhai  Liu Donghong
Affiliation:School of Computer Science, Peking University, Beijing 100871, China;Key Laboratory of High Confidence Software Technologies(Peking University), Ministry of Education, Beijing 100871, China;Academy of Military Sciences, Beijing 100097, China
Abstract:
Keywords:image caption  deep learning  basic capabilities  application effectiveness  key technical challenges
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号