首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 96 毫秒
1.
一种基于直线提取和补全的通用表格分析方法   总被引:3,自引:0,他引:3  
表格分析是表格自动处理过程中的第一步。本文充分利用表格的特点,给出一个基于直线提取和补全的通用表格分析方法。先使用一种矢量化的直线提取算法在游程连通图的基础上得到表格线,同时对表格进行倾斜校正。然后根据表格特性调整表格线,再从表格线得到表格特征点,最后建立规则通过对表格线的补全来求得表格结构的行单元描述。使用该方法对表格图象进行分析,能处理表格线断裂、文字表格线粘连等常见问题,正确得到表格结构。  相似文献   

2.
表格的识别近年来受到了越来越多的关注,已取得一些行之有效的成果。其中的部分算法可抗任意角度的倾斜,然而其运行效率却都低于投影类方法。而投影方法虽然效率很高,但不能处理严重倾斜的表格。文章给出一种新的检测倾斜表格框线的途径。算法利用数字影像中直线段的结构特征高效地检测出表格的一条边框线,并由此获得所需的角度值,进而沿着角度所指定的方向迅速搜索出边框线。整个检测方法的效率类似于投影法,同时可抗任意角度的旋转。  相似文献   

3.
表格的识别近年来受到了越来越多的关注,已取得了一些行之有效的成果,其中的部分方法要求知道表格影像的倾斜角度。给出了一种可以快速检测这种倾角的途径。该算法利用数字影像中直线段的结构特征高效地检测出表格的一条边框线,并由此获得所需的角度值。这一算法也可以用于快速检测其它影像中较长的直线段。  相似文献   

4.
一种单色表格的快速分析方法   总被引:1,自引:0,他引:1  
提出了一种单色表格的快速分析方法。其主要内容是:利用Radon变换检测表格的歪斜角度将其校正,用投影法找出表格线的位置,根据表格线的位置将待分割的栏目的图象提取出来。该方法具有较强的实用性,对表格设计和印刷的要求较低。  相似文献   

5.
本算法利用数字影像中直线段的结构特征高效地检测出表格的一条边框线:并由此获得所需的角度值。这一算法也可以用于快速检测其它影像中较长的直线段。  相似文献   

6.
一种单色表格快速版面分析方法   总被引:3,自引:0,他引:3  
彭健  汪同庆  居琰  叶俊勇  杨波  任莉 《计算机工程》2002,28(11):212-214
结合某铁路分局车辆段列车轮轴卡片自动录入及管理系统开发的实际,提出了一种单色表格的快速分析方法,其主要内容是:利用Radon变换检测表格的歪斜角度将其校正,用投影法找出表格线的位置,根据表格线的位置将待分割的栏目的图像提取出来,该方法具有实用性较强,对表格设计和印刷的要求较低的特点。  相似文献   

7.
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。  相似文献   

8.
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。  相似文献   

9.
表格型票据中框线检测与去除算法   总被引:1,自引:0,他引:1  
字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去除算法,首先充分利用票据灰度图像的特点准确地检测出框线,再采用一种连通链结构描述叠加后的框线区域,然后对交叠进行判断和标记,根据标记保留字符笔划去除框线干扰.经过实际银行支票图像测试证明了算法的有效性和鲁棒性.  相似文献   

10.
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点,为下一步的表格数据信息提取奠定了基础。  相似文献   

11.
票据图像中的格线检测与去除   总被引:1,自引:0,他引:1  
针对票据图像中手写体字符常常与格线交叠的情况,提出了一种直接利用图像灰度信息的格线检测与去除算法。利用字符和格线的边缘信息定位格线并检测字线的交点,然后根据笔画与格线的两种交叠方式(相割与相交)将格线上的像素划分为两个区域:保护区和擦除区,最后动态地选取填充色去除擦除区内的像素。该算法避免了二值化,对806张真实票据中的小写金额域的识别结果比较,显示了该算法的有效性和鲁棒性。  相似文献   

12.
在数字影像中,理想的直线段由呈阶梯状排列的游程所构成。论文利用这一特征提出了一种检测直线段的新方法,它以逐行或逐列搜索带有缝隙的游程作为基础,搜索时能根据已取得的部分直线段预测下一段游程的起始像素位置,检测速度较快,获取的直线段较长,所得结果非常适合于用作为基元以合并成完整的直线。该算法的原理还可用来快速确定表格框线的转角。  相似文献   

13.
基于直线检测的虹膜快速定位方法   总被引:2,自引:0,他引:2  
首先通过灰度投影法确定坐标转换原点,将直角坐标下的虹膜内外边缘圆转换成极坐标下的类直线,再引入辅助校正点手段定位虹膜的内边缘和圆心.利用改进Canny算子及曲线拟合定位虹膜的外边缘及圆心,提高了虹膜定位的精确度.实验结果表明:该算法具有较强的鲁棒性,能较好地定位质量不高的虹膜图像,且虹膜定位时间平均为0.1S,适用于实时虹膜图像识别.  相似文献   

14.
为净化网络环境,需要对网络信息进行审查。针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体的时候有较高的查全率和查准率。  相似文献   

15.
通用票据识别系统中的字符切分方法   总被引:1,自引:1,他引:0  
在票据识别系统中,待识别区域字符的切分是整个系统较为关键的一个环节。主要论述了在一个通用票据识别系统中,针对一般类型的票据中常见的几种待识别区域的类型,采用不同方法实现对票据图像中待识别区域的字符进行较为准确、快速的切分,从而确保整个票据识别系统的识别准确率和识别速度。  相似文献   

16.
提出了一种高效计算图像正交傅里叶—梅林矩的算法。该算法通过消除正交多项式中的阶乘项和提取该图像矩的公共项以提高图像矩值的计算性能。实验分析表明,与传统的直接计算方法相比,该算法可有效节省计算时间,尤其是在计算高阶连续矩情况下性能更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号