首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
利用汉字的部首层次结构有助于减小字符识别器的存储空间和提高泛化性、适应性,但部首分割一直是一个难点.提出一种新的基于部首的联机手写汉字识别方法,该方法把部首形状信息和几何信息集成到识别框架中,在组合搜索过程中利用字符-部首的层次结构字典引导部首的分割与识别,从而提高部首分割的准确率.为克服部首间的连笔,引入角点检测提取子笔划.部首识别采用统计分类器,模型参数通过自学习得到.在字符识别中,采用了2种不同的字典表示以及相应的不同搜索算法.该方法已用于左右与上下结构的字符集,实验结果表明了该方法的有效性.  相似文献   

2.
自动识别手写印刷体汉字系统中的部件分离问题   总被引:1,自引:0,他引:1  
在用抽取笔划有序列法自动识别手写印刷体汉字的系统中,分离出汉字“部件”是很必要的,这里所说的“部件”是指汉字中一些能分离的笔划组合,主要是汉字的偏旁部首(或字根),由计算机自动识别汉字的需要而定。 在以笔划为基元,用句法结构法识别汉字的系统中分离部件是为了恢复部件的有序性,本文提出了一种适合于分离手写印刷体汉字部件的方法,给出这种分离部件方法的框图和在PDP-11/23计算机上进行模拟试验所得到的结果。  相似文献   

3.
问;什么是汉字识别? 答:汉字识别是一种自动的计算机汉字输入技术,是中文信息处理、办公自动化的重要组成部分。它通过扫描、摄像的方式,或者通过实时采集书写的轨迹,由计算机将文稿或书写轨迹自动识别为相应的汉字内码。这种技术可以使人们不使用任何汉字编码方式(比如五笔字型),就能把汉字输入计算机里去。 汉字识别分为联机识别和脱机识别。联机识别(或称手写输入)是将汉字在一块与计算机相连的手写板或数字化仪上,计算机实时采集  相似文献   

4.
陈静  穆志纯  方新  杜大鹏 《计算机工程》2007,33(11):170-172
汉字识别是汉语、汉字认知研究的一个重要研究领域。该文提出了一个基于多层自组织神经网络的模型,从汉字字形聚类及汉字部件拆分的角度,对基于汉字认知的汉字识别过程进行了初步的探索。模拟研究结果表明,模型通过学习能够识别出汉字的结构类型和部件,发现汉字识别中的规律,在一定程度上模拟了汉字的识别。  相似文献   

5.
OCR是Optical Character Recognize(光学字符识别)的英文缩写。它的出现把人们从繁重的手工键入中解脱出来,你只需给计算机配上一台扫描仪加上OCR印刷汉字识别软件,就可以轻松完成长篇文字的录入工作。 一、汉字识别系统的构成 整个印刷汉字文本的识别过程包括: (1)原始文稿的扫描输入:一般图象扫描仪将文稿扫描输  相似文献   

6.
一、汉字的语音输入 语音输入是将人们的语音通过计算机接收、分辨而实现输入的一种手段。汉字在语音识别方面相对于英文有其独特优势。汉字有21个声母、35个韵母,组成56个音素.这些音素构成400个音节,若将不同声调记入,则构成1200多个音节,汉字的句子和词语正是由这些单音节的字组成。  相似文献   

7.
一、汉字识别 汉字识别就是利用计算机抽取汉字字形特征、实现汉字自动输入的一项技术。简单地讲,就是计算机认字。汉字识别是文字识别技术中的顶峰,又是一种高速的汉字输入技术。汉字识别的实现会极大地提高中文信息处理的速度。  相似文献   

8.
本文提出了一种利用关键构件提取印刷体汉字部首的新方法.该方法先将部首分解为若干关键构件,由这些关键构件及它们之间的相对位置关系组成部首的特征,然后根据部首的特征来设计分类树,利用分类树把待识汉字的部首提取出来.采用本方法提取部首,不会受部首大小的影响,也不会受部首与字中其它部分笔划粘连的影响,而且与笔划的粗细无关.本方法在提取关键构件时引入了数学形态学的算法,可以实现并行运算.对传真机输入的二级印刷体宋体汉字(6763个)进行了实验,提取部首的正确率达98.6%.  相似文献   

9.
目前,联机手写汉字识别系统在笔输入计算机方面已得到较成功的应用,相对传统的汉字编码输入法,笔输入法简单直观、勿须学习,因而迅速为人们所接受,联机手写汉字识别技术也随之成为人们关注的焦点。 一、汉字识别概述 和联机识别的特点 汉字识别是模式识别的一个分支,其任务是研究如何使计算机“识字”。汉字识别系统通常采用光电转换装置(数字化仪、光笔、鼠标器等)把汉字或字符  相似文献   

10.
基于关联规则的手写体汉字识别技术   总被引:4,自引:0,他引:4  
针对汉字识别中传统的模糊方位转换技术诸多缺陷提出一种改进方法:加权平均模糊方位代码(加权AFDC)法,以增强识别算法的鲁棒性和泛化能力;对数据挖掘技术中的关联规则进行改进以适应对文字样本库进行泛化的应用,抽象出特定属性——部首,并实现样本库的动态进化。从而在得到文字更贴切的表示方式的同时,对部首库依据支持度排序以实现快速识别,提高识别的自适应性、柔韧性、智能性和可扩展性。  相似文献   

11.
利用汉字数学表达式的思想,将汉字数学表达式库嵌入到开放式软件中,用来弥补汉字内码中包含信息量不足的缺点,使计算机能以比汉字更细粒度的汉字部件为基本单元来处理汉字,为中文信息处理提供了一种新思路。本文介绍了在开放式软件中,实现中文信息按汉字部件查找的设计方法。  相似文献   

12.
无法直接输入计算机或现有的计算机系统字库没有的汉字称为生僻汉字或特殊字。对字库中已包含的生僻汉字,基于造字机理的皮氏输入法可以无重码输入GB18030-2005包括的70244个汉字。对字库中没有的汉字,按照智能造字原理,按照汉字结构和基元进行输入,并生成汉字图片。然后采用插件技术,将生僻字的图片插入到Microsoft Word文档中,以达到输入生僻汉字的目的,为在Microsoft Word文档中完全输入所有的汉字提供了一种方法。  相似文献   

13.
汉字的表义性是其区别于表音文字的一大特点。部件作为构字单位,同汉字的意义之间有着很大的联系。然而,汉字部件的表义能力究竟如何是学界尚待讨论的课题。针对这一问题,该文从汉字部件入手,提出了融合部件的字词分布式表示模型。该模型在向量内部评测任务上性能获得了一定提升,在汉字理据性测量任务上也与人工打分结果显著相关。基于该模型,进一步提出了部件表义能力的计算方法,对汉字部件的表义能力做了整体评估,并结合部件的构字能力建立了现代汉字部件的等级体系。测量结果显示,现代汉字部件具有一定表义能力,但整体而言表义能力偏低。最后,将测量结果应用于对外汉语教学中,确立了适用于部件教学法的部件范围,并提出了对应的汉字教学顺序方案。  相似文献   

14.
本文介绍用于联机手写中文字自动识别的新方法与新算法.由于下述各点的实现,手写 文字时可以减少许多限制,增加书写自由.①笔划的抽取经由两次分段实现:首先连续采样, 将输入笔划变换成线段组成,再对线段的长度进行比较,删去相对不重要的成份.②用笔划校 正技术将不应分离的笔划重新组合成规范笔划,或者将不应联写的复合笔划重新分解成基本 笔划.③用非完全匹配技术使失真字可以识别.④用混序笔划重排算法可使一个混序笔划输 入的字重新排列笔顺.⑤笔划位置和长度作为进一步特征,可区别模糊字.  相似文献   

15.
汉字数学表达式开发平台的设计与实现   总被引:1,自引:0,他引:1  
汉字数学表达式理论弥补了汉字内码中包含信息量不足的缺点,使计算机以比汉字更细粒度的汉字部件为基本单元来处理汉字成为可能;基于汉字数学表达式原理,设计并实现了汉字数学表达式开发平台;该平台可以应用在很多领域,作为一个应用实例,开发了一个基于汉字数学表达式平台的文本数字水印系统。  相似文献   

16.
搜索引擎有很多的关健技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领城的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测.实脸结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与...  相似文献   

17.
汉字数学表达式的自动生成   总被引:10,自引:0,他引:10  
汉字的数学表达式是一种全新的汉字表示方法.通过对汉字部件特征的深入分析,利用图像处理技术对汉字数学表达式的自动生成做了探讨.选取了大约500个基本汉字部件,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点数以及NMI,HNMI,VNMI值作为汉字部件的基本特征;并通过汉字连通区域的分割与合并进行汉字部件的划分和识别;最后,通过汉字结构的识别得到了汉字的数学表达式.实验中,汉字表达式自动生成的正确率为92%.这将在排版印刷、广告及包装设计、网络传输和中文移动通信等领域进一步促进中文信息的处理和传播.  相似文献   

18.
提出基于胶囊神经网络(CapsNet)的汉字字形表征模型,通过表征汉字字形中的部件实现汉字字形的表征.首先,对任一汉字字形生成所有部件类别的表征向量.然后,根据部件存在概率,利用基于欧氏距离的离群点检测,选取相应的部件表征向量.最后,由选出的部件表征向量组成该汉字的字形表征.实验表明,文中模型在仅经过部件字形训练的情况下,即可有效识别汉字部件,同时自动生成汉字字形的有效表征.  相似文献   

19.
本文通过研究图形学中图与图之间的关系以及人们对汉字认知习惯的特点,将汉字拆分为多个汉字组件。将每个汉字组件看作一个图形单位,对照图与图之间的关系,将这些汉字组件进行重新的组合,从而使同一个汉字具备了多个字形。通过使用不同的字形,将水印信息嵌入到文本当中。实验证明,在水印的不可感知性、鲁邦性等方面均获得了很好的效果。  相似文献   

20.
书写顺序恢复是从静态文本图像中提取动态的字符书写顺序信息,将2维的图像转换为1维的书写位置的时间序列的过程.为了对手写汉字进行书写顺序提取,提出了一种脱机手写汉字书写顺序的恢复模型.该模型首先将汉字分为整字、部件、子部件和笔画4个层次;然后利用4种拆分操作将整字拆分为部件,再将部件拆分为子部件;最后通过定义一组拆分关系与子部件偏序关系之间的对应规则来得到子部件的全序关系.而将子部件作为最基本的恢复单位,其书写顺序可通过对笔画和交叉笔画对进行分类来得到.实验表明,该模型提出的汉字书写顺序恢复方法的恢复结果具有较高的准确率,且处理速度达到了6.9字/s.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号