以文字为中心的图像理解技术综述期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

以文字为中心的图像理解技术综述

引用本文：	张言,李强,申化文,曾港艳,周宇,马灿,张远,王伟平.以文字为中心的图像理解技术综述[J].中国图象图形学报,2023,28(8):2253-2275.

作者姓名：	张言李强申化文曾港艳周宇马灿张远王伟平

作者单位：	中国科学院信息工程研究所, 北京 100093;中国科学院大学网络空间安全学院, 北京 101408;中国传媒大学媒体融合与传播国家重点实验室, 北京 100024

基金项目：	中国科学院基础前沿科学研究计划从0到1原始创新项目（ZDBS-LY-7024）

摘要：	文字广泛存在于各种文档图像和自然场景图像之中，蕴含着丰富且关键的语义信息。随着深度学习的发展，研究者不再满足于只获得图像中的文字内容，而更加关注图像中文字的理解，故以文字为中心的图像理解技术受到越来越多的关注。该技术旨在利用文字、视觉物体等多模态信息对文字图像进行充分理解，是计算机视觉和自然语言处理领域的一个交叉研究方向，具有十分重要的实际意义。本文主要对具有代表性的以文字为中心的图像理解任务进行综述，并按照理解认知程度，将以文字为中心的图像理解任务划分为两类，第1类仅要求模型具备抽取信息的能力，第2类不仅要求模型具备抽取信息的能力，而且要求模型具备一定的分析和推理能力。本文梳理了以文字为中心的图像理解任务所涉及的数据集、评价指标和经典方法，并进行对比分析，提出了相关工作中存在的问题和未来发展趋势，希望能够为后续相关研究提供参考。
关键词：	文字图像理解视觉信息抽取场景文字图像检索文档视觉回答场景文字视觉问答场景文字图像描述
收稿时间：	2022/9/26 0:00:00
修稿时间：	2022/12/23 0:00:00

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏