首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文提出了“ 脱壳透视” 的分类原理, 该分类原理对同一汉字集上不同字体的汉字的分类一致性较好, 抗干扰能力强, 是多种印刷体汉字自动识别中较为满意的分类方法。在识别特征的选取上, 我们提出了“ 特征稳定度” 概念, 从这个概念出发, 提取了每个汉字的稳定识别特征和同字异体的公共识别特征, 将每个汉字的复杂结构抽象成一个具有典型特征的框架模型(简称“ 稳定框架原理” )有效地提高了识别率, 压缩了存储空间。根据这些原理, 我们以OKIFAX7700传真机作扫描器, 在CROMEMCO SYSTEM THREE上实现了对GB2312一级字3755个四号宋体及黑体汉字98.57%的识别率及3.24字/秒的识别速度。  相似文献   

2.
目前,印刷汉字OCR技术已逐渐成熟,正走入实用化阶段,本文从实用角度出发,介绍了我们独立开发的一个多本多字号印刷汉字OCR系统,其中着重描述了多字体多字号的中西文混排文本的行,字切分技术,以及粗分类使用的“轮廓特征法”和细分类使用的“关键区域法”最后给出该系统的测试结果和达到的技术指标。  相似文献   

3.
基于多尺度小波分析的汉字字体识别   总被引:1,自引:0,他引:1  
字符识别系统的研究已取得很大成功,要恢复版面信息的原貌,就要对字体进行识别.文中提出了一种基于小波能量分布比例特征的多尺度小波分析的汉字字体识别算法,通过对字符图像进行小波分析以及网格化,提取小波能量分布比例特征作为小波特征,应用BP神经网络在文本无关的条件下对汉字字体进行分类.实验表明,基于多尺度小波分析的汉字字体识别算法能有效的区分黑体、仿宋体、宋体以及楷体4种不同的字体.  相似文献   

4.
多字体多字号印刷汉字识别方法的研究   总被引:2,自引:0,他引:2  
本文对多体多字号印别汉字识别的方法进行了研究, 本文提出的方法是首先对不同字号印刷 汉字进行归一化处理, 再抽取汉字四周笔端数特征、改进粗外围特征、笔划穿插次数特征和投影变换特征, 然后对组合特征进行多级分类识别。实验在IBM一PC AT 微型机上进行, 结果表明, 实验系统在识别实际印别文本时识别率大于98%。  相似文献   

5.
为了揭示汉字字体与受众的情感意象之间的内在关系,从认知计算的角度出发, 探索构建一种“设计特征-结构指标-意象”的灰箱关联模型,以其预测汉字字体的多个意象。首 先依据认知计算的原理将字体结构规则抽象为知识,运用产生式规则将字体结构知识进行定量 描述,提出字重、重心、字面、字怀 4 个字体结构指标的认知计算公式,将无序的形态信息转 化为结构化的有序信息。然后基于汉字字体意象认知系统的非线性耦合的特点,发展出一种运 用多输出最小二乘支持向量回归机(MLS-SVR)进行汉字字体多意象预测的方法。将该方法对汉 字字体的 3 个意象进行预测,实验结果表明其具有良好的预测效果和精度。该模型可作为字体 智能设计系统的适应度函数,为发展字体智能设计提供有益的参考。  相似文献   

6.
一个面向OA的印刷汉字OCR实用系统   总被引:1,自引:0,他引:1  
本文叙述一个采取以“统计模式识别”为主, 以“结构模式识别”方法为辅的识别技术路线实现的以办公室自动化(OA)为应用环境的一级印刷汉字文本识别系统,该系统从实用化角度出发, 采用页式文本图象扫描输入,输入后将图象文本分割成单个汉字, 并根据汉字的结构特点, 抽取了汉字的内层, 外层,局部等多个特征。识别采用多级分类方法。识别结果形成一个国标区位码文件,系统软件建立了一种与用户间的友好界面。该系统是在IBM PC/XT上实现的, 对印刷字样识别率>99%, 对各类实际的办公行文其统计识别率>95%, 识别速度为1-2字/秒。 前  相似文献   

7.
文章提出了一种基于模糊相似测量的小类别数多字体汉字及数字识别方法.该方法通过模糊逻辑处理,直接将字符的二值化图像转换成基于非线性加权相似函数的模糊样板,然后通过分类模糊模型的统计,相似性测量样板的分级组合和基于规则的分类进行识别.实验表明,该方法用于小类别数多字体汉字及数字识别的效果良好.  相似文献   

8.
杨芳  田学东 《计算机工程与应用》2005,41(23):185-186,208
字体识别是印刷文档识别重构的重要组成部分,是目前识别技术的一个难题。以印刷文档的单体单字高识别率为基础,论文提出了一种基于篇章字体导引的汉字单字符字体识别方法,结合字体排版的规律性,使得字体识别速度和精度大大提高。以常用报纸、杂志正文文本为样本进行实验,字体识别率达到了99%。  相似文献   

9.
汉字信息处理领域中急待解决汉字自动阅读技术的开发。在实现结构分析法识别多字体印刷汉字时, 笔划抽取是关健所在。本文提出了从汉字点阵中直接抽取笔划特征的新算法, 省去了细化过程。与国外同类研究相比, 处理速度和正确率均有较大提高。对国标一级汉字的抽取结果是令人满意的。  相似文献   

10.
基于笔划特征的单字符汉字字体识别   总被引:1,自引:0,他引:1  
在文档电子化的文本自动分析、理解和识别过程中,除了有关文档内容的字符识别外,还必须解决字体识别问题.字体识别不仅是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.有别于目前基于多个字符组成的文本块的字体识别方法,本文提出了一种基于单个汉字字符的字体识别方法.在单个汉字字符上提取两类特征:笔划属性特征和笔划分布特征,分别构成两个分类器对单个汉字字符进行字体识别,并集成两个分类器的结果得到最终的识别结果.我们使用的笔划属性特征分类器是文本无关的,而笔划分布特征分类器是文本相关的,集成的分类器属于文本相关的字体识别分类器.我们在包含7种字体的样本集上进行了测试,测试结果显示基于单字的字体识别率达到94.48%.  相似文献   

11.
众所周知,彩色汉字在字处理、排版印刷和软件封面设计等领域中有着重要的应用。目前有许多的字处理软件都带有彩色字体的功能,如Microsoft Word6.0等。彩色字体通常是指某一汉字或一个汉字串以彩色字体显示,彩色显示的最小单位为一个汉字,即一个汉字只能以一种颜色显示,而不能用两种以上的不同颜色显示一个汉字。这显然使用户总感到有点美中不足。能不能以多于一种颜色来显示一汉字呢?  相似文献   

12.
由于汉字拥有大量的字符,大多数对汉字的研究主要集中在汉字的识别和分类问题上,对于生成汉字的研究较少,尤其是在没有大量配对的汉字数据集的情况下.该模型使用内容和风格样式都不匹配的汉字数据集,将生成个性化手写汉字的过程公式化为一个从现有的标准印刷字体到个性化手写汉字样式映射的问题.在基于无监督学习的图像翻译模型的基础上,利...  相似文献   

13.
印刷体现代藏文识别研究   总被引:7,自引:0,他引:7  
王维兰  丁晓青  陈力  王华 《计算机工程》2003,29(3):37-38,94
以印刷体现代藏文白体、黑体、圆体、长体、竹体为字体样张,通过预处理、文本行字切分、特征选择和分类识别的初步研究,获得对5种字体文本的平均识别率为89.582%,对其他字体的文本平均识别率为93.867%。  相似文献   

14.
基于语义和Hopfield网络的模糊汉字识别   总被引:7,自引:0,他引:7  
谭旭  乐晓波  朱亨荣  陈荣元 《计算机工程》2004,30(22):140-141,189
模糊不清汉字的辨认在文本处理中是一个尚未完全解决的难题,该文提出了一种基于语义分析和Hopfield网络相结合的算法,在一定程度上可以解决印刷字体中较为模糊不清汉字的识别问题。实验结果表明,该方法的识别正确率较高。  相似文献   

15.
脱机手写体汉字识别具有重要的理论意义和实践价值,目前在小字符集方面取得了比较好的效果.对大字符集来说,仍在进行研究.为了解决大字符集的手写体汉字识别问题,一般采用多层分类的方法.根据汉字的繁简和字型结构,构造了五级的二叉树SVM模型进行汉字集的粗分类,给出了模型的构造方法.在每级分类识别当中,采用不同的汉字特征和核函数,利用"one-against-rest"算法进行细分类识别.仿真实验表明,该方法能对手写体汉字分级分类识别,具有较高的识别率.  相似文献   

16.
神经网络用于多模式分类   总被引:1,自引:0,他引:1  
杨力  张佩芬 《机器人》1991,13(3):62-64,F003
本文叙述一种改进型HAMMING网在印刷汉字文本识别实用系统中作为粗分类的应用.给出了以3755印刷汉字为多模式分类对象的神经网络分类器的结构及其相应的算法.该方法在微型机上用软件仿真得以实现.取得令人满意的结果.  相似文献   

17.
汉字字体风格迁移旨在保证在语义内容不变的同时对汉字的字形作相应的转换。由于深度学习在图像风格迁移任务中表现出色,因此汉字生成可以从汉字图像入手,利用此技术实现汉字字体的转换,减少字体设计的人工干预,减轻字体设计的工作负担。然而,如何提高生成图像的质量仍是一个亟待解决的问题。本文首先系统梳理了当前汉字字体风格迁移的相关工作,将其分为3类,即基于卷积神经网络(convolutional neural network,CNN)、自编码器(auto-encoder,AE)和生成对抗网络(generative adversarial network,GAN)的汉字字体风格迁移方法。然后,对比分析了22种汉字字体风格迁移方法在数据集规模方面的需求和对不同字体类别转换的适用能力,并归纳了这些方法的特点,包括细化汉字图像特征、依赖预训练模型提取有效特征、支持去风格化等。同时,按照汉字部首检字表构造包含多种汉字字体的简繁体汉字图像数据集,并选取代表性的汉字字体风格迁移方法进行对比实验,实现源字体(仿宋)到目标字体(印刷体和手写体)的转换,展示并分析Rewrite2、zi2zi、TET-GAN(texture effects transfer GAN)和Unet-GAN等4种代表性汉字字体风格迁移方法的生成效果。最后,对该领域的现状和挑战进行总结,展望该领域未来发展方向。由于汉字具有数量庞大和风格多样的特性,因此基于深度学习的汉字生成与字体风格迁移技术还不够成熟。未来该领域将从融合汉字的风格化与去风格化为一体、有效提取汉字特征等方面进一步探索,使字体设计工作向更灵活、个性化的方向发展。  相似文献   

18.
梁艳  黄弋石 《微机发展》2005,15(10):14-15
为使汉字草体计算机输入识别精简化,对汉字草书手写体,实施分类与亚分类等类似处理。参照人的汉字草书书写习惯,提出模糊识别汉字草体手写输入算法。结合各种具体编码约定,可使软件编写思路清晰、减少编程工作量、提高编程工作效率。预见该算法能使最终软件短小有力。该思路可类推地移植到汉字行书、正楷与其他字体,也可移植到英文或其他少数民族文字,但显然具体处理方法不同。  相似文献   

19.
汉字具有丰富的字体类型,并且不同的字体在汉字结构上有显著的不同,现在的OCR技术侧重字的识别,而对字体识别的关注较少。提出文字相关的单字符字体识别方法,利用文字相关的先验信息及字体结构特征,对字体的相似性度量采用向量空间模型,并针对常用66款简体字进行实验,得到了较好的平均识别率。  相似文献   

20.
为使汉字草体计算机输入识别精简化,对汉字草书手写体,实施分类与亚分类等类似处理.参照人的汉字草书书写习惯,提出模糊识别汉字草体手写输入算法.结合各种具体编码约定,可使软件编写思路清晰、减少编程工作量、提高编程工作效率.预见该算法能使最终软件短小有力.该思路可类推地移植到汉字行书、正楷与其他字体,也可移植到英文或其他少数民族文字,但显然具体处理方法不同.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号