视觉信息抽取的深度学习方法综述 |
| |
引用本文: | 林泽柠,汪嘉鹏,金连文.视觉信息抽取的深度学习方法综述[J].中国图象图形学报,2023,28(8):2276-2297. |
| |
作者姓名: | 林泽柠 汪嘉鹏 金连文 |
| |
作者单位: | 华南理工大学电子与信息学院, 广州 510640 |
| |
基金项目: | 国家自然科学基金项目(61936003);珠海市产业核心和关键技术攻关项目(2220004002350) |
| |
摘 要: | 随着信息交互的日益频繁,大量的文档经数字化处理,以图像的格式保存和传播。实际生活工作中,票据识别理解、卡证识别、自动阅卷和文档匹配等诸多应用场景,都需要从文档图像中获取某一特定类别的文本内容,这一过程即为视觉信息抽取,旨在对视觉富文档图像中蕴含的指定类别的信息进行挖掘、分析和提取。随着深度学习技术的快速发展,基于该技术提出了诸多性能优异、流程高效的视觉信息抽取算法,在实际业务中得到了大规模应用,有效解决了以往人工操作速度慢、精度低的问题,极大提高了生产效率。本文调研了近年来提出的基于深度学习的信息抽取方法和公开数据集,并进行了整理、分类和总结。首先,介绍视觉信息抽取的研究背景,阐述了该领域的研究难点。其次,根据算法的主要特征,分别介绍隶属于不同类别的主要模型的算法流程和技术发展路线,同时总结它们各自的优缺点和适用场景。随后,介绍了主流公开数据集的内容、特点和一些常用的评价指标,对比了代表性模型方法在常用数据集上的性能。最后,总结了各类方法的特点和局限性,并对视觉信息抽取领域未来面临的挑战和发展趋势进行了探讨。
|
关 键 词: | 视觉信息抽取(VIE) 文档图像分析与理解 计算机视觉 自然语言处理 光学文字识别(OCR) 深度学习 综述 |
收稿时间: | 2022/9/14 0:00:00 |
修稿时间: | 2022/11/23 0:00:00 |
|
| 点击此处可从《中国图象图形学报》浏览原始摘要信息 |
|
点击此处可从《中国图象图形学报》下载免费的PDF全文 |
|