首页 | 本学科首页   官方微博 | 高级检索  
     

以文字为中心的图像理解技术综述
引用本文:张言,李强,申化文,曾港艳,周宇,马灿,张远,王伟平.以文字为中心的图像理解技术综述[J].中国图象图形学报,2023,28(8):2253-2275.
作者姓名:张言  李强  申化文  曾港艳  周宇  马灿  张远  王伟平
作者单位:中国科学院信息工程研究所, 北京 100093;中国科学院大学网络空间安全学院, 北京 101408;中国传媒大学媒体融合与传播国家重点实验室, 北京 100024
基金项目:中国科学院基础前沿科学研究计划从0到1原始创新项目(ZDBS-LY-7024)
摘    要:文字广泛存在于各种文档图像和自然场景图像之中,蕴含着丰富且关键的语义信息。随着深度学习的发展,研究者不再满足于只获得图像中的文字内容,而更加关注图像中文字的理解,故以文字为中心的图像理解技术受到越来越多的关注。该技术旨在利用文字、视觉物体等多模态信息对文字图像进行充分理解,是计算机视觉和自然语言处理领域的一个交叉研究方向,具有十分重要的实际意义。本文主要对具有代表性的以文字为中心的图像理解任务进行综述,并按照理解认知程度,将以文字为中心的图像理解任务划分为两类,第1类仅要求模型具备抽取信息的能力,第2类不仅要求模型具备抽取信息的能力,而且要求模型具备一定的分析和推理能力。本文梳理了以文字为中心的图像理解任务所涉及的数据集、评价指标和经典方法,并进行对比分析,提出了相关工作中存在的问题和未来发展趋势,希望能够为后续相关研究提供参考。

关 键 词:文字图像理解  视觉信息抽取  场景文字图像检索  文档视觉回答  场景文字视觉问答  场景文字图像描述
收稿时间:2022/9/26 0:00:00
修稿时间:2022/12/23 0:00:00
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号