首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文通过研究探讨几种常用的汉字识别方法,并找出各个方法的优点和缺点,再将统计识别的方法和最近提出的人工神经网络识别方法相结合起来,利用各自的优势.应用到相似汉字的识别之中,提高了相似汉字识别率近5个百分点,在提高的同时还有效改善了设计的汉字识别系统的识别性能.  相似文献   

2.
一种相似汉字的识别算法   总被引:7,自引:5,他引:7  
本文提出了一种通用的基于部分空间方法的相似汉字识别算法, 该算法无须事先确定相似字组, 也不必人工选择各个相似字组的部分空间, 能够自动决定待识别字是否需要进入相似字识别过程, 以及怎样选择部分空间。实验结果证明了本算法的有效性。  相似文献   

3.
为了有效地进行手写体汉字的分割与识别,提出了一种基于假设-证实的离线手写体汉字分割与识别方法,即首先用一个假设分割边界的集合将手写汉字串图象分割成一个顺序排列的段序列;然后对顺序上连续的段被合并后,进行不相似度评价,其正确的分割由不相似度评价结果来证实.具体做法是,首先根据像素及笔划的分布特征,将汉字串分割成一个段序列,然后对分割与识别的决策由最优的相邻段合并后的不相似度评价结果得到.实验证明,该方法对于粘连、交叠、断裂和在书写方向上呈松散结构的汉字的分割与识别是非常有效的.  相似文献   

4.
针对传统两级手写汉字识别系统中手写汉字识别的特征提取方法的限制问题,提出了一种采用卷积神经网对相似汉字自动学习有效特征进行识别的系统方法。该方法采用来自手写云平台上的大数据来训练模型,基于频度统计生成相似子集,进一步提高识别率。实验表明,相对于传统的基于梯度特征的支持向量机和最近邻分类器方法,该方法的识别率有一定的提高。  相似文献   

5.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。  相似文献   

6.
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果.  相似文献   

7.
该文通过研究几种常用汉字的识别方法,找出各自的优势和不足,并将统计识别方法和人工神经元网络识别方法有机的结合起来,利用其优势,应用于相似汉字识别之中,使相似汉字的识别率提高了约5个百分点,同时还改善了整个汉字识别系统的性能。  相似文献   

8.
封筠  杨扬  朴春慧 《计算机工程》2005,31(15):33-34,41
在采用支持向量机分类器识别的基础上,提出了一种基于遗传算法进行手写体相似汉字特征选择的方法,解决了相似字中部分空间的自动确定问题。采用弹性网格与小波变换相结合的方法提取相似汉字的特征。实验结果验证了基于交叉验证的特征选择方法的泛化性能好于基于简单验证的方法的结论。  相似文献   

9.
文章提出了一种基于模糊相似测量的小类别数多字体汉字及数字识别方法.该方法通过模糊逻辑处理,直接将字符的二值化图像转换成基于非线性加权相似函数的模糊样板,然后通过分类模糊模型的统计,相似性测量样板的分级组合和基于规则的分类进行识别.实验表明,该方法用于小类别数多字体汉字及数字识别的效果良好.  相似文献   

10.
卢达  浦炜  陈琦玮  谢铭培 《计算机应用》2005,25(10):2418-2421
对手写汉字识别问题,提出了一种在识别之前对手写汉字预分类的新方法,该方法用Neocognitron网提取字符笔画特征,然后采用有监督的扩展ART神经网络(SEART)产生一定数量的预分类组并通过基于模糊相似测量的匹配算法进行预分类。实验表明,该方法用于手写汉字分类效果良好,预分类正确率达到98.22%。  相似文献   

11.
一种新颖的汉字字形相似度计算方法   总被引:1,自引:0,他引:1  
为了利用字形描述技术识别相似汉字, 提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组, 以部件为运算对象, 字型结构为运算符, 将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型, 使计算过程被逐层分解为原子部件间的相似性比较, 从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明, 该方法与人的认知结果吻合度很好, 算法是有效可行的。  相似文献   

12.
相似字识别的正确与否对整个识别系统的准确性和可用性都有着极大的影响。在实际应用中,我们发现相似汉字之间的误识存在不对称性,并对这种不对称现象的成因进行了细致的探讨和分析。基于这种不对称性,本文提出了一种分类的部分空间方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别,不同类别在相应的部分空间提取不同的特征进行比较,以达到正确识别相似字的目的。实验结果表明了本方法的有效性,相似字识别的准确性得到了很大的提高,其中易错相似字的识别正确率平均提高了4.55个百分点,不易错相似字的识别正确率平均提高了0.38个百分点。  相似文献   

13.
SVM多值分类器在脱机手写体相似汉字识别中的应用   总被引:7,自引:0,他引:7  
相似字的普遍存在是影响脱机手写体汉字识别率低的主要原因之一。论文研究了支持向量机(SVM)多值分类器在手写相似汉字识别中的应用,所提出的方法采用了小波弹性网格技术提取汉字的特征,通过实验比较了三种不同的SVM分类器组合策略的分类效果。  相似文献   

14.
SVM在小字符集脱机手写体汉字识别中的应用研究   总被引:5,自引:2,他引:5  
石繁槐  童学锋 《计算机工程》2002,28(6):154-155,189
提出将SVM方法引入小字符集脱机手写体汉字识别,利用较少的训练样本就可以达到比较理想的识别效果,并在小校本学习的情况下同最小距离法和多重相似度法的识别率和识别时间作了比较,说明SVM方法在小字符集脱机手写体汉字识别中实用性。  相似文献   

15.
喻莹  杨扬  董才林 《计算机工程》2006,32(17):10-11,1
相似字多是造成汉字识别误识率和拒识率高的主要原因之一,该文提出了一种基于动态特征选择的相似字识别方法,其识别过程从初始提取全局特征开始,然后逐步动态地、递归地加入更精细的局部特征以提高识别的判决力,直至识别结果满足判决条件为止。这种方法不需要人工确定相似字组,而且能自动选择相似字间区别最大的部分空间,构成新的特征向量。通过实验验证,该方法使相似字的识别率有了显著提高,证明了该方法的有效性。  相似文献   

16.
基于支持向量机的手写体相似字识别   总被引:22,自引:3,他引:19  
本文提出对手写相似汉字进行识别的支持向量机方法。该方法与人工神经网络一样适用于小规模分类,但由于支持向量机依据结构风险最小化原则,因此泛化能力更强。并且,由于支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。本文用支持向量机算法对三组手写相似汉字进行了识别,取得了较好的结果。  相似文献   

17.
支持向量机作为一种新的机器学习方法,由于其建立在结构风险最小化准则之上,而不仅仅是使经验风险达到最小,从而使支持向量分类器具有较好的推广能力.并且,由于支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解.文章首先讨论了基于支持向量机的手写体相似汉字识别过程.然后,针对支持向量机识别手写汉字所遇到的问题进行了分析和阐述,并在此基础上提出了基于最小距离分类器分类的两级分类策略.最后,针对理论进行了实验仿真.实验结果有力证明了本文提出的基于svM的相似汉字识别方法的有效性.  相似文献   

18.
王建平  王晓雪 《计算机应用》2007,27(12):3084-3088
针对汉字特点,提出一种基于汉字结构度和繁简度二类模态判别的多模式识别法。给出了汉字字型结构度类型的字型编码,以及汉字字型结构分解算法;对分解后的部件进行繁简度判断,依据各部件繁简度模态选择合适的特征提取算法,实现手写体汉字字型分解的多模式识别方法融合;对相似字采用两级分类的识别法,从而提高汉字的识别率和正确率。仿真实验验证了方法的有效性。  相似文献   

19.
一、汉字识别 汉字识别就是利用计算机抽取汉字字形特征、实现汉字自动输入的一项技术。简单地讲,就是计算机认字。汉字识别是文字识别技术中的顶峰,又是一种高速的汉字输入技术。汉字识别的实现会极大地提高中文信息处理的速度。  相似文献   

20.
汉字识别的特征点法及其一种应用   总被引:2,自引:0,他引:2  
本文提出了一种基于特征点的汉字识别新方法。汉字笔划上的端、折、歧、交点和汉字背景上的关键背景点称为汉字特征点。和以往不同的是本文把笔划特征点和关键背景点两者结合起来, 直接根据特征点本身的信息来识别。汉字特征点反映了汉字结构的本质特征, 集中了主要的结构信息。用特征点来识别汉字,能消除汉字中非结构信息的不稳定性对识别的影响, 能浓缩汉字信息, 减少存贮量, 提高识别速度。 文中叙述了一种基于自上而下浮动匹配的汉字识别试验系统和识别结果。对印刷在纸上的6763个国标基本集五号宋体页面和三号宋体页面,3755个国标一级五号仿宋页面和四号激光照排输出的仿宋页面, 均得到较高的识别率和识别速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号