智能化表格识别技术综述 |
| |
引用本文: | 梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023(12):62-76. |
| |
作者姓名: | 梁天恺 苏新铎 黄宇恒 徐天适 张华俊 曾碧 |
| |
作者单位: | 1. 广州广电运通金融电子股份有限公司研究总院;2. 广东工业大学计算机学院 |
| |
基金项目: | 国家自然科学基金(62172111);;广东省自然科学基金(2021A1515012233); |
| |
摘 要: | 在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。
|
关 键 词: | 表格识别 表格检测 表格结构识别 人工智能 大数据 |
|
|