首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种基于连通域的版面分割方法   总被引:4,自引:0,他引:4  
版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,基于连通域的算法分割版面准确,速度快,适用范围广,不仅可用于矩形版面,对于非Manhattan版面等复杂版面也能取得令人满意的效果。  相似文献   

2.
版面分割是版面分析的重要组成部分,经过大量的研究,如今已到了一个比较成熟的阶段。对基于连通域的版面分割算法进行了改进,能有效快速地分割较为复杂的版面图像,同时有效减少原有算法中阈值引起的分割错误的情况。先对文本图像进行单个字体的区域扩充,使后续的连通间距统计更为准确和方便,再通过连通间距的统计对图像进行模糊整合,进行文本图像的连通区域分割。实验结果表明,改进的基于连通域的算法分割版面准确,速度快,适用范围广,对于较为复杂的版面分割更具有优越性。  相似文献   

3.
针对传真图像,为了提高版面分割与分类准确率,提高处理速度,以连通区域为处理元素,通过合理设定阈值,将水平和垂直相邻连通区域进行合并,快速准确地分割图像。并且将版面分割过程与分类过程相结合,根据连通区域的大小建立矩阵,提取能够表征区域信息的八维特征,然后使用BP神经网络将版面区域分为文字区域和非文字区域两类。实验中得到版面分割准确率为89.2%,版面分类准确率为94.22%。实验结果证明,该算法能够快速准确地对传真图像进行分割和分类,具有较强的实用价值。  相似文献   

4.
针对彩色印刷图像背景色彩丰富和汉字存在多个连通分量,连通域文字分割算法不能精确提取文字,提出基于汉字连通分量的彩色印刷图像版面分割方法。利用金字塔变换逆半调算法对图像进行预处理,通过颜色采样和均值偏移分割图像颜色,标记文字连通分量,根据汉字结构和连通分量特性重建汉字连通分量,分析文字连通分量连接关系确定文字排列方向实现文字分割。实验结果表明,该方法能够有效地重建汉字连通分量,在彩色印刷图像中实现对不同字体、字号、颜色的文字分割。  相似文献   

5.
基于多特征和SVM的文本图像版面分类方法   总被引:1,自引:0,他引:1  
对文本图像的灰度、形状和纹理等视觉特征进行了较为全面的分析,研究了版面中文本、表格、图形和图像在各种特征层面上的差异。针对中英文版面,结合投影法与连通域分析快速准确的分割图像,提取了能够表征区域信息的17维特征向量,然后使用基于正态决策树的多分类支持向量机将文本图像版面区域分为文本、表格、图形和图像四类。实验结果表明算法能够快速、准确地处理文本图像版面,具有较强的应用价值。  相似文献   

6.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。在汉字、英文等文字的版面分析已有一些研究成果,古籍的版面分析也是一个研究热点。该文就西夏文的版面分析进行了系统的研究和实践。  相似文献   

7.
汉字分割是连续手写汉字识别的关键问题之一,现有多数汉字分割算法需要对笔划结构进行分析,由于汉字具有复杂的结构和不同的书写风格,因此往往计算量偏大.针对嵌入式系统处理能力和内存资源相对较少的特点,介绍了一种基于笔划连通域和字符投影的手写汉字分割算法,以连通域为单元实现连续汉字的分割,不用考虑连通域中所包含笔划的结构和风格,降低了计算量.  相似文献   

8.
一种对于横竖混排中文版面倾斜的校正算法   总被引:2,自引:0,他引:2  
文章提出了一种对于横竖混排中文版面倾斜的校正方法。通过对数字图像进行遍历,得到版面上的所有连通体。然后切分横竖混排区域,并以连通体行为单位先计算每行的倾斜角度,获得直方图,并作平滑处理,得到版面实际的倾斜角,最后进行相关的变换校正。文章最后给出了测试数据及结果分析。  相似文献   

9.
版面分割中游程平滑后的图文特征分类   总被引:3,自引:0,他引:3       下载免费PDF全文
游程平滑是版面分割前期常用的一种方法,它将具有较小距离的象素连通在一起形成连通元素。对这些连通元素加以分类是有效划分文本、图象和图形的前提。本文提出了利用几何特征的分类规则以及进一步细分的线结构特征检测方法。  相似文献   

10.
提出了基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,提出了基于自然语言理解的错误纠正和信息分类算法解决字符识别率较低和信息分类困难的问题.同时对系统的各个模块进行相应的分析,给出了一套完整的实现方案.对于随机选取的1589张样张,识别准确率达到90.54%.  相似文献   

11.
针对以往车牌字符分割算法在复杂情况下分割准确率低的问题,提出了一种基于新邻域模板的连通域算法的车牌字符分割算法。采用基于新模板的连通域算法粗分割字符;通过自适应阈值投影法进行字符细分割;同时使用区域合并算法保证字符的完整性。实验结果表明,该算法将连通域法与投影法有效结合,能够同时解决汉字不连通、字符粘连和边框粘连等复杂情况,该算法对车牌字符进行分割正确率达99.5%。  相似文献   

12.
基于最小生成树聚类的中文版面分割法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对中文版面多横竖混排的特点,提出一种基于最小生成树聚类的版面分割方法。对原图像进行水平和垂直游程平滑,并对平滑后所得的连通域进行预分类处理,将文本进行横排、竖排分类。对预分类后的各类文本采用最小生成树聚类算法进行聚类处理。经实验,准确率达97%。实验表明,该方法对中文文档有良好的分割效果。  相似文献   

13.
蔡锋  刘立柱 《计算机应用》2010,30(5):1259-1261
电话号码区域定位是传真图像电话号码识别中的关键技术之一。首先采用连通域分析对传真图像实现较为精确的版面分析,形成比较完整的单词连通域,提取单词连通域的水平穿越次数和空间分布特征,形成51维的特征向量。采用基于正态决策树的多分类支持向量机(SVM),来完成对传真图像电话号码区域关键词的定位。实验结果表明,算法能够快速有效地完成关键词的定位,具有较强的实用价值。  相似文献   

14.
基于连通域的汉字切分技术研究   总被引:3,自引:0,他引:3  
字符切分技术已经成为汉字识别系统设计中的关键问题,对于质量较差的文本图像,用灰度图像取代传统的二值化黑白图像能够取得更好的切分效果,基于连通域的切分算法能够对灰度图像进行较好的切分,基于连通域的汉字切分算法能有效地对文本图像中汉字字符部件进行合并及对粘连字符进行分割。  相似文献   

15.
汉字识别系统中的版面分析算法   总被引:2,自引:0,他引:2  
本文在简要介绍版面分析技术发展状况和常见版面分析技术路线的基础上,提出了一种将“自底向上”与“自顶向下”分析路线相结合的版面分析算法。  相似文献   

16.
中文商务名片识别系统的实现   总被引:6,自引:0,他引:6  
本文介绍了一个实际应用中的中文商务名片识别系统,分析了系统的结构。该系统首先结合实际中的一些具体问题对名片图象进行预处理,然后在传统版面分析技术的基础上针对名片版面的特点进行版面分析。在对分割区域的字符进行识别之后,根据识别结果中的语义知识和版面分析得到的位置信息对识别结果进行基于知识规则的理解,从而实现了名片信息的自动录入,整个系统在实际中表现出了良好的性能。  相似文献   

17.
《四库全书》是中文古籍的经典和代表。对《四库全书》的整理,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统,主要功能是对《四库全书》的页面图象进行分析和理解,分离图象中的汉字用于识别和统计,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷,版面有一定规范,但形式多样、结构复杂、图象质量和字体大小有差异,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看,本系统已经能够自动采用相应算法,处理多种规范和准规范的版面,并提供方便的人工辅助纠错功能,保障了预处理工作的顺利进行,也为识别系统的学习建库和识别创造了良好的条件。  相似文献   

18.
将一般图形Voronoi图应用于文档图像的分割,该方法是一种基于连通域的分割算法.首先将文档图像进行二值化处理,选择适当的结构元素对该二值化图像进行膨胀,然后把经过处理后的外部边缘作为一般图形Voronoi图的生成元,再根据离散生成法生成Voronoi图后与原图像进行并运算,从而完成最后的版面分割.该方法操作简单、有效,适用范围广,尤其对中文版的Manhattan版面有很好的效果.  相似文献   

19.
网页版面布局设计是整个网站构思和网页制作过程中最重要的一部分,本文通过案例分析,对网页版面布局的基本要素;设计的一般步骤;以及应该遵循的原则做了一些介绍和探讨.  相似文献   

20.
工程图版面分析是实现自动读图的前提。本文以人观察图纸的原理为基础,给出一种基于理解的,结合图形分析与图像分析的工程图版面分析方法。该方法以自适应缩放的网格式图像化的方法对版面进行快速分割,并给出一种以图名为主导的检查和自动调整策略确保结果的准确性。实验结果证明,该方法对实际应用中的工程图,特别是大型工程图是十分有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号