首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文提出了一种印刷体汉字计算机自动识别的方案.从EIT-PS简易图文扫描器输入一页印刷体汉字,经前处理程序切割出每一个字并将其正规化;利用网格单元特征进出该输入文字的候补文字;再计算输入文字与候补文字的复合类似度,复合类似度最高的候补文字被认为是输入文字.本识别方法具有抗噪声干扰,抗连笔、断笔等变形的能力.对任选的一万字进行识别试验的结果,取得了积累识别率98.6%的良好成绩.  相似文献   

2.
中国汉字博大精深,拥有着数千年的文化背景与历史积淀,是世界上使用人数最多的文字。汉字与其他文字不同,它具有自己的拼音化系统和独立文字结构,所以在目前以计算机信息技术化为主体的社会里,对印刷体汉字信息的处理也就成了信息化发展的关键。印刷体汉字识别后处理技术OCR的出现就解决了现如今海量文字信息所带来的处理难题,它提高了印刷体文字的处理效率,也推动了信息社会的不断发展。  相似文献   

3.
本文提出关于两级汉字识别问题的一种方法.第一级分类采用四种办法:文字边缘长 度,四边编码,交叉线(对角线)编码及文字两侧负象的重心.用这四种办法每类可产生平均 16个字的候选类.第一级分类大大改进了识别效率.第二级分类(识别)利用R变换算法,选 出其中15个分量作为特征,按最小距离分类. 对带有一定干扰的2500个黑体标准汉字样在装有硬盘的DJS-l30机上进行了实验研究, 正确率为98.24%,误识率为0.08%,拒识率为1.68%.  相似文献   

4.
5.
本文为手写印刷体汉字识别提供了一种新的解决方法。在研究过程中, 从汉字图象的输入到识别结果的获取, 建立了一整套基本完整的识别实验系统。系统选择四边形状特征作为粗分类的基本特征, 提出汉字最稳定的结构是笔划段之间相对位置关系的思想。在粗分类时引入集合运算, 提高了粗分类的正确率和分类能力, 在细分时用快速合并笔划段的方法获取汉字笔划段作为细分特征。最后对于关系结构图的匹配提出了一种新的匹配方法一相关属性关系图启发式匹配,这种方法利用了汉字样本知识, 建立具有相关属性的关系图, 在其指导下, 完成非精确的结构匹配, 该系统在386微机上用汇编语言实现, 对1千个手写常用汉字识别率达百90%以上, 速度是每字2秒。  相似文献   

6.
汉字是由不同部首、笔划构成的 ,但在计算机中表示部首是非常困难的。文章介绍一种便于计算机使用的部件来进行汉字识别的方法 ,所有的汉字被分解为几百个部件 ,识别时 ,先识别出汉字中的各个部件 ,然后再构成整个汉字 ,从而加快了汉字识别的速度。  相似文献   

7.
本文在充分考察了手写汉字和中国大汉字集特点的基础上, 提出了一组用于手写印刷体汉字识利的分类特征, 它们是长笔划分布类型、各类笔划的数目、交叉点数目和折点数目。利用这组特征进行匹配就可直接识别出GB2312-80汉字集中的绝大部分汉字, 再通过一个基于知识的推理过程即可进一步识别出已被分成类组的少数剩余汉字, 这种将统计分类与基于知识的推理识别相结合的两级识别方法具有较高的效率。一个适应性较强的汉字笔划和特征点抽取方法也被设计, 它是SLSA方法的改进, 与机器学习功能相配合, 大大提高了特征抽取的正确率。我们根据上述思想建立了一个手写印刷体汉字识别实验系统, 并获得了较好的实验结果。  相似文献   

8.
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。  相似文献   

9.
10.
本文详细地分析了手写印刷体汉字中字形相似字的特点。采用对汉字点阵图象进行方向变换的方法, 利用汉字的笔道(黑点)方向和背景(白点)的封闭率特征表现近似字的局部差异, 在相似字特征判定表的引导下, 对字形相近的字进行判别, 取得了令人满意的效果。  相似文献   

11.
12.
本文对70年以来,获得一定实验结果的“印刷体汉字识别方法”,进行扼要的介绍和评论。文中叙述了:分级图形匹配法,轮廓投影法,对判定加权相关法以及有阶段结果的变换“算法”和已取得较好结果的复合类似度法等。同时还简介了汉字识别中一些予处理技术,如文字线幅度的检测校正,文字位置的校正,文字图形的模糊化等。本文还提出了对开展“汉字识别”的一些不成熟的看法。  相似文献   

13.
本文论述了我国印刷体汉字识别技术研制的三个阶段, 指出了我国印刷体汉字识别系统的特色, 并提出了今后发展的动向。  相似文献   

14.
手写印刷体汉字的笔段抽取及偏旁识别   总被引:1,自引:1,他引:0  
本文采用对汉字点阵图象进行方向变换的方法抽取汉字的笔段, 采用结构分析的方法识别分布于汉字四周的偏旁, 对国标一级汉字中的99类偏旁计一万余字进行了偏旁抽取试验, 当侯选偏旁数<5时, 累计正确侯补率>96%。  相似文献   

15.
计算机汉字字符识别(CCR)作为一种汉字输入手段, 在中国、日本、东南亚等使用大量汉字的国家和地区, 一直受到高度的重视。随着近年来计算机中文文字处理能力的增强和中文输出技术的进步, 也相应地要求输入技术取得新的突破。另一方面, 硬件技术的发展正在给CCR提供越来越多的支持。现在可以说, 解决问题的关键几乎全在于软件方面, 而其中最主耍的又在于能否提出更有效的方法。  相似文献   

16.
逻辑神经网络印刷体汉字识别系统简称LINCRS,是国家863高技术研究课题。该系统利用逻辑神经网络模型实现了多字号文体的印刷体汉字识别,可识别字号为3~5号,可识别字数约4000,识别速率1字/秒。系统对测试样张的识别率大于99%,对实际文稿的识别率约  相似文献   

17.
汉字印刷体在笔画的横平竖直上具备了平面设计中点和线的构成要素,从设计的角度看,汉字印刷体是由点、线构成一幅幅标志作品。汉字印刷体在形态上有着高度的条理和比例;结构上的对称和均衡;笔画上的曲直和长短;空间上的疏密和韵律;它们中的每个字都体现着精心设计过的、构成的意味。  相似文献   

18.
手写印刷体汉字识别方法综述   总被引:13,自引:0,他引:13  
  相似文献   

19.
介绍了一个印刷体数学公式识别系统,它由公式字符识别和结构分析两部分组成。在公式字符识别中,采用了一些适用于公式字符的特殊处理方法;在结构分析中,根据数学公式的结构布局,采用了一种将“自顶向下”和“自底向上”策略相结合的数学公式结构分析方法,实现了数学公式的重用,实验表明,这种方法能取得较好的识别效果。  相似文献   

20.
一个印刷体汉字识别系统的设计   总被引:1,自引:1,他引:1  
给出一个印刷全汉字识别系统的设计方案,它主要包括扫描输入,模糊增强与聚类分割 ,图象数据二值比,通过并行神经网络进行汉字匹配等四个步骤。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号