共查询到18条相似文献,搜索用时 250 毫秒
1.
2.
针对由照相机拍摄的文档图像可能存在倾斜或扭曲变形而导致光学字符识别(OCR)软件不能正确识别的情况,首先采用连通域标记方法进行单词及文本线的检测;然后根据单词中位点信息线性拟合得到其校正基线;最后根据校正基线和垂直位移距离分别对单词进行旋转和位移而得到校正后的图像。与传统方法相比,该方法得到的校正基线和垂直位移距离不受文档具体文字内容的影响,能更加准确地代表单词的倾斜走向,并保证校正后的单词在水平方向上对齐;同时表现出了很好的鲁棒性。经过分析算法的计算复杂度, 并与传统方法相比较, 该算法的效率和鲁棒性较高。 相似文献
3.
基于形态学的文档图像径向校正算法 总被引:1,自引:0,他引:1
手持相机拍摄的文档图像存在不同程度的镜头失真。根据文档图像的文本行信息,提出了一种基于数学形态学的镜头校正算法。首先利用自适应阈值方法分割文档图像,并通过形态学闭运算把连通体聚类为文本行。然后利用二次多项式模型拟合文本行的中心线,并建立径向失真校正的目标函数。该目标函数把中心线对应的曲线映射为直线,从而求出文档图像的镜头失真参数。实验结果表明,该校正算法可以有效地校正文档图像各种程度的径向失真。 相似文献
4.
5.
6.
7.
文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用.文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想.针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的.使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高. 相似文献
8.
针对基于数码相机拍摄的小型文档图像,提出一种集成型的小型文档图像透视变形校正方法.利用小型文档本身面积小,文字数少,版面较复杂的特点,通过彩色图像分割提取小型文档的外边缘并结合小型文档内部的文字信息进行校正.实验表明,该方法能够有效地对小型文档图像进行快速准确的校正. 相似文献
9.
10.
《计算机应用与软件》2016,(6)
在对复杂版面扭曲文档图像进行OCR识别时,识别率较低。针对这类文档图像提出一种基于形态学文本行定位的扭曲校正方法。首先根据形态学特征在复杂版面中定位文本行,区分处理文字区域和非文字区域,利用文本行信息提取文本线;再以文本线为基准利用窗口扫描法进行文字行校正,最终重构图像。实验结果表明,该方法校正效果明显,对于复杂版面的扭曲文档图像有较好的校正效果,校正后识别率大幅度提高。 相似文献
11.
文档在扫描输入过程中,所生成的页面图像一般都存在一定的角度倾斜,当页面图像倾斜角度过大时,将对进一步的版面分析以及字符识别产生不良影响。为了快速准确地检测页面图像倾斜角度和降低计算量,提出了一种基于视窗变换的页面图像倾斜检测方法,该算法首先对视窗中的文字及图片的细节部分进行模糊,然后对其边沿进行直线拟合,以便快速检测页面图像倾斜角度。实验结果表明,该方法能快速准确地检测出各类页面图像的倾斜角度,并具有良好的适应性。 相似文献
12.
Text Retrieval from Document Images Based on Word Shape Analysis 总被引:2,自引:1,他引:2
In this paper, we propose a method of text retrieval from document images using a similarity measure based on word shape analysis. We directly extract image features instead of using optical character recognition. Document images are segmented into word units and then features called vertical bar patterns are extracted from these word units through local extrema points detection. All vertical bar patterns are used to build document vectors. Lastly, we obtain the pair-wise similarity of document images by means of the scalar product of the document vectors. Four corpora of news articles were used to test the validity of our method. During the test, the similarity of document images using this method was compared with the result of ASCII version of those documents based on the N-gram algorithm for text documents. 相似文献
13.
基于改进Hough变换的文本图像倾斜校正方法 总被引:2,自引:0,他引:2
文本图像在扫描输入时产生的倾斜现象会对后续的页面分割及光学字符识别(OCR)处理产生很大的影响,而传统的标准Hough变换虽然具有对噪声不敏感,不依赖于直线连续性的优点,但由于计算量偏大,速度慢,在实用时有较大的局限性。提出一种基于改进的Hough变换的文本图像倾斜校正方法,通过在变分辨率图像中采用不同的文本方向提取算法,及选择合理投票门限等改进Hough变换的措施,减小了由图像区域及文字笔画粗细所产生的对倾角判定的不利影响,并使用基于偏移值的方法实现页面倾斜的快速校正。实验结果表明,该算法实现了大范围高精度的文本图像倾角的快速检测,具有较强的实用性。 相似文献
14.
Suzanne Liebowitz Taylor Deborah A. Dahl Mark Lipshutz Carl Weir Lewis M. Norton Roslyn Weidner Nilson Marcia C. Linebarger 《Artificial Intelligence Review》1994,8(2-3):255-276
Document understanding, the interpretation of a document from its image form, is a technology area which benefits greatly from the integration of natural language processing with image processing. We have developed a prototype of an Intelligent Document Understanding System (IDUS) which employs several technologies: image processing, optical character recognition, document structure analysis and text understanding in a cooperative fashion. This paper discusses those areas of research during development of IDUS where we have found the most benefit from the integration of natural language processing and image processing: document structure analysis, optical character recognition (OCR) correction, and text analysis. We also discuss two applications which are supported by IDUS: text retrieval and automatic generation of hypertext links 相似文献
15.
本文讨论了一种基于光学标记识别技术的文档图象识别系统,重点阐述了该系统的设计思想和实现技术。系统以标记识别为例,对图象数字化、图象预处理、获取图象信息以及信息特征提取等几个关键部分进行了详细描述。在图象预处理过程中给出了一种高效实用的边缘检测算法,在标记信息特征提取中采用了统计分析的方法,其结果可以大大
大提高标记识别系统的准确率。 相似文献
大提高标记识别系统的准确率。 相似文献
16.
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。 相似文献
17.
基于直线连续性的页面倾斜检测与校正 总被引:14,自引:0,他引:14
在文档扫描过程中,输入的文档图像不可避免地会发生倾斜现象,而布局分析及字符识别算法对页面倾斜都十分敏感,因此倾斜检测和校正是文档分析预处理的重要环节,文中提出了一个基于直线连续性的倾斜检测方法。它将字符连通区包围盒底边中心点作为特征点,利用文本行中特征点与基线的关系,计算出基线的方向,即为页面倾斜方向,接着,介绍了一种基于偏移值的倾斜校正方法,实验证明,该算法速度快,准确度高。 相似文献
18.
现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题。从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(lightweight document pose estimation network),以优化上述问题。将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(differentiable spatial to numerical transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正。DPENet采用轻量化设计,以面向移动端的MobileNet V2为主干网络,模型体量只有10.6?MB。在SmartDoc-QA(仅取148张文档图像)数据集上与现有的三种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6%)和平均位移误差(mean displacement error,MDE)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有良好的表现。在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度。 相似文献