首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 423 毫秒
1.
为了正确分离图文,提出一种基于字符群体特征的图文分离算法.该方法以直线识别得到的短直线为基础,对连通域进行限制长度的外轮廓提取;通过大小和密度判据捡出候选字符,并以字符串形式出现的群体特征吸收漏识的字符和符号,实现包含标注字符、标题栏及明细栏字符等各类字符与图形位图的分离.结果表明:该算法提高了字符特别是难检字符及符号判定的可靠性,保持了字符串的完整性,具有适应性强、效果好的特点.  相似文献   

2.
工程图的子连通域表示及其应用   总被引:1,自引:1,他引:0  
文章介绍了基于子连通域表示的工程图处理方法,包括子连通域的概念、提取方法、操作和应用等。子连通域是连通域的一部分,从图象的子连通域表示出发,可以进行提取连通域、轮廓跟踪及旋转、缩放等操作,利用这些操作,可以方便地从点阵图象中提取线条、字符和分割粘连的字符。  相似文献   

3.
复杂背景下的车辆牌照字符提取方法研究   总被引:11,自引:1,他引:11  
针对复杂背景中字符难于提取的问题,提出了 一种通用的提取字符的方法.该方法很好地利用了字符固有的特性,先对图像进行基于变分 法的自适应二值化,再用一种快速区域标号算法求取连通域,然后对连通域进行处理,提取 出字符行,最后进行倾斜校正.实验结果表明,该方法简单可行,成功率达到了96%以上.  相似文献   

4.
对车牌图像的二值图进行连通域提取可以解决倾斜带来的问题.提出了一种基于快速连通域标记的字符分割方法.先用改进的Otsu法对车牌图像进行二值化分割,之后基于快速连通域标记算法进行连通域标记,最后对各个连通域进行后续处理提取出全部车牌字符连通域.实验表明,改进的快速连通域标记算法克服了倾斜问题,而且有效地提高了连通域提取的速度,获得较好的字符分割的鲁棒性和实时性.  相似文献   

5.
建立了相邻字符区域的高斯混合模型,用于区分字符与非字符.在此基础上,提出了一种从图像中提取多语种文本的方法.首先对输入图像进行二值化,并执行形态学闭运算,使二值图像中每个字符成为一个单独的连通成分.然后根据各连通成分重心的Voronoi区域,形成连通成分之间的邻接关系;最后在贝叶斯框架下,基于相邻字符区域的高斯混合模型计算相应的伪概率,以此为判据将每个连通成分标注为字符或非字符.利用所提出的文本提取方法,进行了复杂中英文文本的提取实验,获得大于97%的准确率和大于80%的召回率,证实了方法的有效性.  相似文献   

6.
基于人在字符串匹配过程中常用的思维,提出一种从模式串中提取特殊字符和具有特殊结构的字符组成字符串,用数组或链表来表示这种字符串的结构,使得提取出来的字符能与目标串中相应位置的字符比较的算法。用以减少比较次数,提高匹配效率。  相似文献   

7.
针对以往车牌字符分割算法在复杂情况下分割准确率低的问题,提出了一种基于新邻域模板的连通域算法的车牌字符分割算法。采用基于新模板的连通域算法粗分割字符;通过自适应阈值投影法进行字符细分割;同时使用区域合并算法保证字符的完整性。实验结果表明,该算法将连通域法与投影法有效结合,能够同时解决汉字不连通、字符粘连和边框粘连等复杂情况,该算法对车牌字符进行分割正确率达99.5%。  相似文献   

8.
车牌字符分割是车牌识别系统的三大关键技术之一.为了准确地进行字符分割,提高字符识别的准确率和识别的速度,提出了一种改进的连通域提取车牌字符分割算法,算法通过扫描目标像素的若干相邻像素后按照一定的准则确定目标像素与相邻像素之间的连通关系,可克服同类算法中像素重复标记和归并标记需大量运算的缺陷,最后得到正确的连通标记划分并能提取出各个分离的连通区域.实验表明算法能够准确快速地识别字符,且具有较好的稳健性.  相似文献   

9.
针对食品包装行业中喷墨打印技术形成的点阵字符不连续及食品包装背景复杂等问题,提出一种基于改进的连通域分割与BP神经网络相结合的字符识别方法.利用数学形态学与连通域分析定位点阵字符区域,对字符区域进行分割,利用BP神经网络对字符进行识别.实验结果表明,该方法在字符分割和识别上的效果均有较大的提升,其字符识别准确率达到98.03%.  相似文献   

10.
TH—DAIMS3.0清华图纸自动输入与管理系统   总被引:3,自引:0,他引:3  
本文将围绕如何充分利用图纸图象的问题,介绍了TH-DAIMS3.0系统的设计目标、主要功能特点,以及系统中所采用的各种新技术。在TH-DAIMS3.0中,我们用自适应分块二值化技术提高消蓝支污能力,用连通域分类技术进行图文分离,用模式匹配技术识别工程图中的尺寸标注字符,用八方向连通域搜索技术及轮廓跟踪技术拾取曲线,用交互式分类矢量优技术进行矢量化处理,用光机矢量双向混合设计加速交互处理。文章的最后  相似文献   

11.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

12.
一种基于熵的文本相似性计算方法   总被引:1,自引:0,他引:1  
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,而忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题,本文提出一种基于熵的相似度求解方法。该方法在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,验证了算法的有效性和准确性。  相似文献   

13.
Handprinted word recognition on a NIST data set   总被引:1,自引:0,他引:1  
An approach to handprinted word recognition is described. The approach is based on the use of generating multiple possible segmentations of a word image into characters and matching these segmentations to a lexicon of candidate strings. The segmentation process uses a combination of connected component analysis and distance transform-based, connected character splitting. Neural networks are used to assign character confidence values to potential character within word images. Experimental results are provided for both character and word recognition modules on data extracted from the NIST handprinted character database.  相似文献   

14.
基于统计的纠错建议给出算法及其实现   总被引:7,自引:0,他引:7  
张仰森  曹元大  徐波 《计算机工程》2004,30(11):106-109
介绍了为自动校对系统检测出的错误字串提供有效纠错建议的算法。该算法针对音同、音近、形似或编码键位相近的错误产生特点,构造了字驱动的双向词典和近似字词典,并利用模糊匹配算法为错误字串提供纠错建议,然后对所有建议根据上下文信息和统计频率进行排序。通过在Windows环境下所实现的系统试验,表明正确建议的召回率达到91.8%,而前5选建议的正确率为76.4%。  相似文献   

15.
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。  相似文献   

16.
孙桂煌 《现代计算机》2011,(16):9-11,16
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息,也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n-gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。摘要:  相似文献   

17.
基于统计和规则的未登录词识别方法研究   总被引:8,自引:0,他引:8       下载免费PDF全文
周蕾  朱巧明 《计算机工程》2007,33(8):196-198
介绍了一种基于统计和规则的未登录词识别方法.该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组).实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%.  相似文献   

18.
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。  相似文献   

19.
The development and implementation of an algorithm for automated text string separation that is relatively independent of changes in text font style and size and of string orientation are described. It is intended for use in an automated system for document analysis. The principal parts of the algorithm are the generation of connected components and the application of the Hough transform in order to group components into logical character strings that can then be separated from the graphics. The algorithm outputs two images, one containing text strings and the other graphics. These images can then be processed by suitable character recognition and graphics recognition systems. The performance of the algorithm, both in terms of its effectiveness and computational efficiency, was evaluated using several test images and showed superior performance compared to other techniques  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号