共查询到20条相似文献,搜索用时 18 毫秒
1.
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。 相似文献
2.
针对当前文档分析领域中表格分析的发展现状,整理了近年来领域内的相关文献,分别对表格检测和表格结构识别两个关键任务进行研究。针对表格检测任务,将其划分为基于目标检测、图神经网络、生成对抗网络、可变卷积网络的方法;针对表格结构识别任务,将其划分为基于目标检测、图神经网络、循环神经网络、可变卷积与扩张卷积网络的方法。总结了各类模型的方法路径和局限性,梳理了相关任务及其对应的数据集。更广泛地总结了表格分析领域常用的公开数据集,并对各数据集的来源、规模、适用范围及文件类型进行详细介绍。列举了表格分析领域常用的评价指标,并按照实验数据集的不同对现有模型的实验结果进行对比。总结了当前表格分析领域的发展状况,并对未来发展方向进行了展望。 相似文献
3.
4.
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。 相似文献
5.
6.
针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。 相似文献
7.
孙俊;苟刚 《计算机工程与设计》2024,45(10):3066-3073
针对表格图像很难精确从文档中提取出表格结构的问题,提出一种融合图卷积网络的双分支识别网络模型。以ResNet+FPN为主干网络,引入矩阵分解头代替注意力机制重整全局特征。设计一个双分支网络以获取表格单元格间空间位置和逻辑邻接信息。以GCN感知单元格间连接关系辅助输出位置信息和逻辑邻接关系。实验结果表明,在多个数据集上相比基线模型F1指标平均提升10.6%,F(beta=0.5)指标提升18.6%。在TableGraph-24K数据集上,相比最近的TGRNet模型在F1指标上提升3.1%,F(beta=0.5)指标平均提升2.9%。 相似文献
8.
评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格线的表格结构识别的性能评估方法。自动评估系统能够指出识别结果与基准数据的区别,平均每秒比较38.6个表格,远超过人工评估的效率。 相似文献
9.
近十多年来,随着国内微型计算机的普及,汉字系统的应用领域越来越广.从以前的硬汉字系统到后来出现的软汉字系统,从前几年的非直接写屏汉字系统到目前支持直接写屏与西文软件高度兼容的中文平台汉字系统.汉字系统本身也发展得越来越完善了. 相似文献
10.
11.
本文介绍了一个面向具体应用领域的集数据表格的扫描,识别,数据自动入库为一体的软件系统,研究了表格自动定位,汉字,数字的切分,快速识别等关键技术,提出了一种基于笔道方向的手写体数字识别方法。 相似文献
12.
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点,为下一步的表格数据信息提取奠定了基础。 相似文献
13.
14.
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构.提出了一种基于字线分离的预处理算法.该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离.实验结果表明,该算法能够滤除大部分文字像素,准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤. 相似文献
15.
近几年来,国内外已提出了许多关于表格文件图象分析的方法,但其中关于表格逻辑结构提取物方法却很少,为此,提出了一种关于表格文件逻辑结构撮的方法,此方法主要分为整表的全局划分、局部的逻辑结构分析和整表的再次全局划分3个步骤,该方法强调对文件全局和局部布局结构的综合分析,与以往的仅仅从局部上对表格逻辑结构进行了确定的方法相比,它具有较高的识别正确率,并可以识别结构更为复杂的表格文件。 相似文献
16.
表格分析是对表格的基本结构及形状进行识别的过程,是以后能否从表格单元中正确提取文本信息的关键.在结合表格特点的基础上,采用了表格线检测与处理相结合的方法获取表格框线.检测表格线过程中,通过定义了主表格线长度来加快扫描的速度:在表格线的处理中,针对杂线的剔除、表格线的调整及最终获得表格结构等方面进行了系统的探讨.大量的实验结果表明所提方法是可行的. 相似文献
17.
用计算机大批量实时处理表格,必须尽量快速地分割出各有效信息块,再针对单个信息块进行字符识别和基于词语句法的后期处理.介绍了一种构造加权无向图以分割表格的方法,图本身蕴含了表格的版面结构,同时又可以作为模式对表格进行分类. 相似文献
18.
19.
20.
非限定表格信息提取系统的研究 总被引:3,自引:0,他引:3
本文概要讨论了非限定一表格信息提取系统的结构和技术难点,提出了一种既有利于表格识别,又能进行表格定位的方法-四角定位点法,介绍了利用四角定位点法实现的非限定表格信息提取系统,实验结果表明,该系统具有通用、快速、准确的特点。 相似文献