首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。  相似文献   

2.
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。  相似文献   

3.
如果你在Word文档中使用了表格,那么愿以下的几个自动化功能能够帮助你提高Word表格的编辑效率。  相似文献   

4.
用Word改进Delphi表格功能的方法   总被引:1,自引:0,他引:1  
本文介绍了Word自动化服务器的基本概念,阐述了在Delphi中利用Word OLE自动化技术,开发复杂的表格报表程序的一般方法和步骤,并给出了具体的程序实例。  相似文献   

5.
沈军强  肖刚  高飞  陈久军 《计算机工程》2009,35(17):187-189
选票表格几何结构识别是选票图像几何结构识别的关键。提出一种基于表格线游程的表格域提取方法,实现选票表格几何结构识别。该方法以表格线游程作为表格线检测的矢量基元,在一定的约束条件下合并表格线游程实现选票表格中表格线的提取,通过提取得到的表格线实现选票表格中表格域的提取。实验结果表明该方法能够快速有效地实现选票图像的几何结构识别。  相似文献   

6.
计算机排版系统促进了排版印刷行业的自动化进程。在各种书刊的排版过程中,表格是一个重要的组成部分,本文对表格排版的设计过程进行论述,并提出一些编程技巧。  相似文献   

7.
Excel表格自动输出   总被引:5,自引:0,他引:5  
介绍了一种通过VC++编程来控制Excel,从而实现Excel表格自动化输出的方法,并着重说明了编程中如何根据实际需要重载、扩充Excel对象类的成员函数,然后给出了一般表格的自动化输出编程实例。  相似文献   

8.
在版面分析过程中,有时会将表格误判为图形或将图形误判为表格。为避免对误判的表格或图形进行识别而产生的错误结果,文章提出了一种根据表格框线信息和表格单元信息来区分表格与图形的方法。该方法结合表格的结构特征,提出了作为一个表格的重要组成要素的表格框线和表格单元所必须满足的若干约束条件,通过验证每个条件是否得到满足来区分表格与图形。实验表明,该方法能有效地区分绝大多数表格与图形,极大地降低了对表格与图形的误判率。  相似文献   

9.
常常可以见到有人在Word中直接绘制表格,但这样的表格功能很有限,因此为了更专业起见,有人采用先在Excel中做好表格,然后再复制到Word中的方法。但这样做的表格是一张“死”表,若日后遇到有表格修改的情况,还得返回头重来—次,比较麻烦。下面有两种办法可以做“活”你的表格,让表格更新变得比较快速省事。  相似文献   

10.
表格分析是对表格的基本结构及形状进行识别的过程,是以后能否从表格单元中正确提取文本信息的关键.在结合表格特点的基础上,采用了表格线检测与处理相结合的方法获取表格框线.检测表格线过程中,通过定义了主表格线长度来加快扫描的速度:在表格线的处理中,针对杂线的剔除、表格线的调整及最终获得表格结构等方面进行了系统的探讨.大量的实验结果表明所提方法是可行的.  相似文献   

11.
许晖  徐鹏 《计算机科学》2005,32(10):16-19
表格作为结构化数据的一种最常用的表现形式,已被各个行业广泛应用在信息管理系统中.表格的自动生成和处理技术也成为应用信息系统设计和实现中的关键技术.随着Internet和Web技术的发展,Web与传统的数据库系统、文档管理系统结合在一起构成了巨大的、异构的、分布式的数据仓库.海量信息和异构信息的处理对表格的数据建模和处理技术提出了新的要求.针对现有技术在表格建模方面存在的模型结构简单,支持的表格类型有限和缺乏对集成异构数据源的支持等缺陷,本文在从设计和实现方面分析现有各种信息系统对表格处理技术的需求基础上,提出了一种面向数据绑定的新型表格建模方法以及相关技术,从而满足数据层和显示层在数据源类型、数据集成和组织方式等方面的多种需求.  相似文献   

12.
杜旭  杨明  周宗照 《计算机应用研究》2004,21(10):223-224,222
路由表的实现是路由器软件的核心,而硬件转发表的维护则是硬件高速转发的关键。在分析路由表与转发表同步模块接口与功能的基础上,充分利用Linux虚拟网络设备和BSD套接字扩展机制的优势与特点,提出了一种在Linux下完成两者同步的新思路。该总体方案及实现已应用于国际合作项目高速宽带路由器的研制与开发中。  相似文献   

13.
Tables are a ubiquitous form of communication. While everyone seems to know what a table is, a precise, analytical definition of “tabularity” remains elusive because some bureaucratic forms, multicolumn text layouts, and schematic drawings share many characteristics of tables. There are significant differences between typeset tables, electronic files designed for display of tables, and tables in symbolic form intended for information retrieval. Most past research has addressed the extraction of low-level geometric information from raster images of tables scanned from printed documents, although there is growing interest in the processing of tables in electronic form as well. Recent research on table composition and table analysis has improved our understanding of the distinction between the logical and physical structures of tables, and has led to improved formalisms for modeling tables. This review, which is structured in terms of generalized paradigms for table processing, indicates that progress on half-a-dozen specific research issues would open the door to using existing paper and electronic tables for database update, tabular browsing, structured information retrieval through graphical and audio interfaces, multimedia table editing, and platform-independent display.  相似文献   

14.
Given a set of low-quality line-delimited tabular documents of the same layout, we present a robust zoning algorithm which exploits both intra- and inter-document consensus to extract the structure of the table. The structure is captured in the form of a document template, that can then be snapped to a new document to perform automated “cookie cutter” data extraction. We also report a companion consensus-based algorithm for the classification of zone content as either machine print, handwriting or empty. Using scanned Census records from 1841 to 1881, the template is recovered with an efficiency of.076 [0, 1). Using consensus over about 10 documents from each data set, this error was reduced to.0076, or by 90%, which amounts to two missing line segments and one false positive. Similarly, the error for coverage was reduced from 0.098 to 0.016, or by 83%. Use of consensus also resulted in machine print classification accuracy of 100% for two of the three data sets. The classification error for handwriting averaged 0.1225 per document. By exploiting consensus within and between documents, automated zoning and labeling is greatly improved, providing field-level indexing of document content. Heath Nielson received his B.S. in 1998 and an M.S. degree in 2003 from Brigham Young University, Prove, Utah, in computer science. He is now working at the Church of Jesus Christ of Latter-day Saints on microfilm scanning technology at Salt Lake City, Utah. William Barrett received his Ph.D. (1978) in medical biophysics and computing and his undergraduate degree in mathematics from the University of Utah. He was a research fellow at the National Institutes of Health in the Division of Computer Research and Technology, where he worked with the National Heart, Lung, and Blood Institute. He is also a member of IEEE and ACM and has over 60 refereed publications. He is currently at BYU and heads an active research group that works in the areas of computer vision, pattern recognition, and image processing.  相似文献   

15.
The tremendous success of the World Wide Web is countervailed by efforts needed to search and find relevant information. For tabular structures embedded in HTML documents, typical keyword or link-analysis based search fails. The Semantic Web relies on annotating resources such as documents by means of ontologies and aims to overcome the bottleneck of finding relevant information. Turning the current Web into a Semantic Web requires automatic approaches for annotation since manual approaches will not scale in general. Most efforts have been devoted to automatic generation of ontologies from text, but with quite limited success. However, tabular structures require additional efforts, mainly because understanding of table contents requires the comprehension of the logical structure of the table on the one hand, as well as its semantic interpretation on the other. The focus of this paper is on the automatic transformation and generation of semantic (F-Logic) frames from table-like structures. The presented work consists of a methodology, an accompanying implementation (called TARTAR) and a thorough evaluation. It is based on a grounded cognitive table model which is stepwise instantiated by the methodology. A typical application scenario is the automatic population of ontologies to enable query answering over arbitrary tables (e.g. HTML tables).  相似文献   

16.
赵煌 《微机发展》1996,6(2):20-22
本文研究了所涉及的表处理系统的表的构造形式和一般模型,给出设计原理和表的语句形式,为广大计算机编程人员提供一种I/O数据的新方法.  相似文献   

17.
本文详细分析了在Office应用中的表格边框表现形式,以及对于表格中复杂边框的绘制方法,提出一种统一的方法绘制复杂表格边框的交叉点,以达到美观的效果。  相似文献   

18.
企业级数据仓库一般都由超大型数据库(VLDB)所组成,数据量以数百GB计算,甚至以TB计算。当数据表增长到一定数据量之后,交易性能会发生非常明显的下降。通过对数据表分区可以将数据分为更小、更容易管理的部分,从而改善大型表以及具有各种访问模式的表的可伸缩性和可管理性。本文通过对表分区特点的分析,具体研究了关系型数据仓库分区的影响因素,并提出了表分区的相关策略。  相似文献   

19.
表格文档在日常生活中运用十分广泛,对这类文档进行计算机自动处理能提高文档处理速度和准确度,具有重要的现实意义.表格文档版面结构提取是文档信息处理自动化的核心.由于表格文档图像包含印刷体和手写体字符、图像、污损、噪声和一定的倾斜,在其影响下,正确的提取文档的版面结构是比较困难的.在总结国内外表格文档版面结构提取方法的基础上,提出了一种基于最优坐标系的版面结构提取方法,该方法与其它方法相比具有很强的抗干扰能力和文档版面定义灵活方便的特点.  相似文献   

20.
丁革建 《微机发展》1996,6(6):44-45
本文提出一种解决数据库输出表格设计的新方法.BD排版系统中表格处理命令简捷,调整方便.结合数据库编程技术和BD排版命令于一体的混合编程是输出表格设计之捷径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号