首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
基于视窗的OCR页面图像倾斜检测方法   总被引:2,自引:0,他引:2       下载免费PDF全文
文档在扫描输入过程中,所生成的页面图像一般都存在一定的角度倾斜,当页面图像倾斜角度过大时,将对进一步的版面分析以及字符识别产生不良影响。为了快速准确地检测页面图像倾斜角度和降低计算量,提出了一种基于视窗变换的页面图像倾斜检测方法,该算法首先对视窗中的文字及图片的细节部分进行模糊,然后对其边沿进行直线拟合,以便快速检测页面图像倾斜角度。实验结果表明,该方法能快速准确地检测出各类页面图像的倾斜角度,并具有良好的适应性。  相似文献   

2.
谢凤英  姜志国  汪雷 《计算机应用》2006,26(7):1587-1589
针对扫描背景不定且含有图表信息的复杂文本图像,提出了一种有效的倾斜检测方法。该方法首先通过对梯度图像的统计分析,自适应地选取到了包含文字的特征子区;在特征子区内,论文把文字行间的空白条带看作一条隐含的线,用优化理论计算出空白条带的倾斜角度,这也就是文本的倾斜角度。实验结果表明,该倾斜检测方法不受扫描背景、边界大小、文本布局及行间距等情况的限制,具有速度快、精度高、适应性强的特点。  相似文献   

3.
This study presents a new method, namely the multi-plane segmentation approach, for segmenting and extracting textual objects from various real-life complex document images. The proposed multi-plane segmentation approach first decomposes the document image into distinct object planes to extract and separate homogeneous objects including textual regions of interest, non-text objects such as graphics and pictures, and background textures. This process consists of two stages—localized histogram multilevel thresholding and multi-plane region matching and assembling. Then a text extraction procedure is applied on the resultant planes to detect and extract textual objects with different characteristics in the respective planes. The proposed approach processes document images regionally and adaptively according to their respective local features. Hence detailed characteristics of the extracted textual objects, particularly small characters with thin strokes, as well as gradational illuminations of characters, can be well-preserved. Moreover, this way also allows background objects with uneven, gradational, and sharp variations in contrast, illumination, and texture to be handled easily and well. Experimental results on real-life complex document images demonstrate that the proposed approach is effective in extracting textual objects with various illuminations, sizes, and font styles from various types of complex document images.  相似文献   

4.
This paper describes a new method for the classification of binary document images as textual or nontextual data blocks using neural network models. Binary document images are first segmented into blocks by the constrained run-length algorithm (CRLA). The component-labeling procedure is used to label the resulting blocks. The features for each block, calculated from the coordinates of its extremities, are then fed into the input layer of a neural network for classification. Four neural networks were considered, and they include back propagation (BP), radial basis functions (RBF), probabilistic neural network (PNN), and Kohonen's self-organizing feature maps (SOFMs). The performance and behavior of these neural network models are analyzed and compared in terms of training times, memory requirements, and classification accuracy. The experiments carried out on a variety of medical journals show the feasibility of using the neural network approach for textual block classification and indicate that in terms of both accuracy and training time RBF should be preferred.  相似文献   

5.
针对文本图像倾斜检测的问题, 提出了一种新的基于几何约束的文本图像倾斜角自动检测算法。该算法采用边界标记自动机的方法对一组同行字符轮廓进行检测从而得到该组字符轮廓的最低点信息, 再用矩的方法剔除噪声字符, 并确定页面的倾斜角度。实验结果表明, 该算法在检测效率与准确率上都有了明显的提高, 同时在处理较大倾斜角和较少字符数目的倾斜检测中也有较好的执行效率。因此, 该算法可广泛应用于包括英文、中文、日文在内的多种语言文本图像的倾斜检测中。  相似文献   

6.
新的文本图像倾斜检测及校正算法   总被引:3,自引:0,他引:3  
在文档扫描过程中,文档可能会发生倾斜,而很多字符识别和布局分析算法都对倾斜十分敏感,文本图像的倾斜检测及校正就成为文档分析不可缺少的环节.提出了一种新的倾斜文本图像的校正方法,该方法首先获取文档图像的bounding box,以bounding box面积最小作为倾斜校正的最终目标,并使用遗传算法搜索该最小值.实验结果表明,该算法对倾斜角的检测具有较高的精确度.  相似文献   

7.
一种对于横竖混排中文版面倾斜的校正算法   总被引:2,自引:0,他引:2  
文章提出了一种对于横竖混排中文版面倾斜的校正方法。通过对数字图像进行遍历,得到版面上的所有连通体。然后切分横竖混排区域,并以连通体行为单位先计算每行的倾斜角度,获得直方图,并作平滑处理,得到版面实际的倾斜角,最后进行相关的变换校正。文章最后给出了测试数据及结果分析。  相似文献   

8.
赵飞  谢里阳  李佳 《计算机应用》2011,31(6):1631-1633
针对由照相机扫描仪等文档获取设备拍摄的文档图像可能存在倾斜,进而导致光学字符识别(OCR)软件不能正确识别的情况,采用了一种以文档图像投影栅缝宽为目标函数的优化方法,栅缝宽最大值对应的投影角度的相反数即为文档图像的倾斜角。利用栅线宽函数扩大了检测范围,并提高了检测速度;利用反投影法和均布列预投影等方法,减少了计算量;利用二分法提高了算法的检测精度。通过一些包含少量插图的文档图像的倾斜角检测实验,验证了该方法的有效性。  相似文献   

9.
基于直线连续性的页面倾斜检测与校正   总被引:14,自引:0,他引:14  
在文档扫描过程中,输入的文档图像不可避免地会发生倾斜现象,而布局分析及字符识别算法对页面倾斜都十分敏感,因此倾斜检测和校正是文档分析预处理的重要环节,文中提出了一个基于直线连续性的倾斜检测方法。它将字符连通区包围盒底边中心点作为特征点,利用文本行中特征点与基线的关系,计算出基线的方向,即为页面倾斜方向,接着,介绍了一种基于偏移值的倾斜校正方法,实验证明,该算法速度快,准确度高。  相似文献   

10.
基于灰度图像的表格框线去除算法   总被引:4,自引:1,他引:4  
笔画与表格框线的交叠的现象在表格型文档中普遍存在,严重影响了文档自动处理系统的性能.现有的去线算法大部分都是基于二值图像的,许多有用的局部信息已经丢失.提出了直接利用图像灰度信息的灰值线检测与去除算法.首先利用图像的边缘特征检测直线以及字线的相交位置;然后通过对直线上相交点对的分析确定字线的交叠方式,并将这些方式归纳为穿透和未穿透两类简单的形式;最后将直线划分为保护区和擦除区两部分,保护区内的像素在去线过程中被保留,而擦除区内的像素则利用灰度形态学算法来擦除.在我国现行支票上的实验表明算法是有效的.  相似文献   

11.
一种基于Hough变换的文档图像倾斜纠正方法   总被引:10,自引:2,他引:8  
李政  杨扬  颉斌  王宏 《计算机应用》2005,25(3):583-585
在对文本扫描输入的过程中,文本图像不可避免地会发生倾斜,倾斜校正将为图文分割、文字识别等后续处理工作创造良好的条件。提出了一种基于Hough变换的检测图像倾斜度的方法,为了克服Hough变换计算量大的缺点,该方法首先选取局部代表性子区域并提取其图像水平边缘,然后对提取的水平边缘进行两级Hough变换,从而实现了准确性与快速性的很好结合。  相似文献   

12.
13.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。  相似文献   

14.
The digitalization processes of documents produce frequently images with small rotation angles. The skew angles in document images degrade the performance of optical character recognition (OCR) tools. Therefore, skew detection of document images plays an important role in automatic document analysis systems. In this paper, we propose a Rectangular Active Contour Model (RAC Model) for content region detection and skew angle calculation by imposing a rectangular shape constraint on the zero-level set in Chan–Vese Model (C-V Model) according to the rectangular feature of content regions in document images. Our algorithm differs from other skew detection methods in that it does not rely on local image features. Instead, it uses global image features and shape constraint to obtain a strong robustness in detecting skew angles of document images. We experimented on different types of document images. Comparing the results with other skew detection algorithms, our algorithm is more accurate in detecting the skews of the complex document images with different fonts, tables, illustrations, and layouts. We do not need to pre-process the original image, even if it is noisy, and at the same time the rectangular content region of a document image is also detected.  相似文献   

15.
With the advance of technology, business offices and organizations together with their clients create a massive amount of administrative documents every day. Administrative documents commonly contain some salient entities such as logos, stamps or seals as the means of their authentication and proprietorship. These salient entities provide quite discriminative information, which can effectively be used for different tasks of document image retrieval, classification and recognition in document-based applications. Thus, proper detection/recognition of these entities in document images increases the performance of such applications in terms of document retrieval, classification, and recognition. To present the state-of-the-art research on the retrieval of administrative document images, this paper deals with a survey of administrative document image retrieval in relation to seals and logos. All the available datasets, feature extraction and classification techniques for logo and seal detection/recognition are discussed systematically. The shortcomings of the present technologies on logo and seal based document processing are also highlighted. Avenues of the future works are further given for the benefit of readers. To the best of authors’ knowledge, there is no survey on administrative document image retrieval and hence the authors hope that this work will be helpful to the researchers of the document analysis community.  相似文献   

16.
文本是计算机视觉的许多应用中的一项重要特征。大量复杂图像文本的应用,使图像文本分析技术成为研究的新方向。图像文本分析技术和通常的文档图像分析技术之间有着紧密的联系;但是图像文本其自身所具有的特性,又使得图像文本分析技术具有不同于一般的文档图像分析的更加丰富的内容。我们将图像文本分析技术划分为三大组成部分:图像文本定位、图像文本的预处理和图像文本的识别进行讨论。最后,本文也对图像文本分析技术的应用进行了讨论。  相似文献   

17.
李德鑫  朱宁波  刘伟 《计算机工程与设计》2007,28(19):4690-4691,4701
运用字符规范化和小波变换的知识,提出一种将文档图像分割成字符图像,再对字符图像规范化,然后将随机序列嵌入到小波图像低频系数的水印算法.根据视觉系统纹理掩蔽特性,将不同强度的水印分量嵌入到了不同的小波系数中.由于文档图像分割和规范化本身具有抗几何攻击的特性,故该方法对缩放、小角度旋转有一定的鲁棒性,实验结果表明:该方法在文档图像上比其它方法更具备优越性.  相似文献   

18.
This paper presents a new knowledge-based system for extracting and identifying text-lines from various real-life mixed text/graphics compound document images. The proposed system first decomposes the document image into distinct object planes to separate homogeneous objects, including textual regions of interest, non-text objects such as graphics and pictures, and background textures. A knowledge-based text extraction and identification method obtains the text-lines with different characteristics in each plane. The proposed system offers high flexibility and expandability by merely updating new rules to cope with various types of real-life complex document images. Experimental and comparative results prove the effectiveness of the proposed knowledge-based system and its advantages in extracting text-lines with a large variety of illumination levels, sizes, and font styles from various types of mixed and overlapping text/graphics complex compound document images.  相似文献   

19.
一种鲁棒性的结构未知表格分析方法   总被引:1,自引:0,他引:1  
李星原  高文 《软件学报》1999,10(11):1216-1224
模型未知表格的分析是表格识别中文本分析阶段的一个重要且具有挑战性的问题.目前的一般方法仅能容忍表格线的微小断线.文章提出一种基于抽取表格线的分析结构未知表格的策略.利用抽取的表格线的特征知识和局部约束可以选择一些有效边.在扫描水平和垂直表格线时,如果环绕边都有效,则产生一个矩形块,引入迭代可以更好地利用全局信息并使抽取结果满足约束关系.这种矩形块的抽取可以容忍表格线大的断线或不合适的分割,可以处理诸如嵌入矩形块的复杂结构.矩形块被抽取后,表格的其他部件可以通过搜索剩余的部分来抽取.表格测试实验证明,该方法  相似文献   

20.
基于投影的文档图像倾斜校正方法   总被引:5,自引:0,他引:5       下载免费PDF全文
针对文档图像的倾斜校正问题,提出了一种新的基于投影的文档图像倾斜角检测方法。首先采用一种高效的像素遍历算法对文档图像从不同角度进行投影,然后对投影数据进行累加求和,通过比较不同角度下的累加和来确定倾斜角度。该方法在投影过程中只需对文档图像进行极少部分投影,因而大大减少了运算量。基于该方法的特点,提出了由“粗”到“精”的投影策略,在确保检测精度的同时大幅提高了检测速度。实验结果表明,方法非常有效,可以获得很高的检测精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号