首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
结合距离分类器的神经网络手写体汉字识别   总被引:1,自引:1,他引:1  
手写体汉字识别技术中如何解决复杂的大类别识别问题,是汉字识别中的一个难点。该文介绍了基于笔划的手写体汉字特征抽取方法,提出了一种基于预分类的神经网络汉字识别方法,该方法用一个传统的距离分类器先对汉字进行预分类,神经网络根据预分类结果进行有选择的训练和识别,能有效解决神经网络大类别模式识别中的训练和分类问题,学习时间很短,识别效果较理想。  相似文献   

2.
基于SVM的脱机手写汉字机器学习识别方法研究   总被引:3,自引:1,他引:3  
提出了一种模糊统计方法的脱机手写体汉字特征提取方法.结合小波网格方法和汉字笔画密度特征方法对汉字进行特征提取,并运用支持向量机方法,通过机器学习对脱机手写汉字识别。仿真实验表明,支持向量机方法在脱机手写汉字识别中有良好的识别性能及模糊统计方法是有效的。  相似文献   

3.
脱机手写体汉字识别研究综述   总被引:7,自引:2,他引:7  
脱机手写体汉字识别是汉字识别领域中最难的课题。该文对目前脱机手写体汉字识别在预处理、特征提取、分类识别及后处理四个阶段主要采用的方法做了简要介绍,阐述了各种方法的优缺点,并提出了一种将支持向量机有效地用于解决多分类问题的策略。最后根据目前的研究状况,指出今后研究中需要注意的问题和研究的发展方向。  相似文献   

4.
文中介绍了一种无笑序手写汉字在线识别方法,提出了基于汉字笔画数的编码方法。整个识别过程为两大部分,首先进行笔画分类,然后根据笔画序列码和汉字的结构完成入手 写何不在于识别。由于本系统要求可以无笔序地进行汉字输入,给汉分类带的来很大的困难,为此,在汉字结构匹配时,提出了一种结构特征搜索及排索算法,很好地解决了要求无笔序输入所带来的问题,实践证明,这种方法用于无笔序手汉字的在线识别是非常有效的。  相似文献   

5.
模拟退火算法在汉字图像识别中的应用与研究   总被引:1,自引:0,他引:1  
安建慧  宋柏 《计算机应用》2007,27(Z2):89-90
阐述了模拟退火算法的基本原理,并在此基础上利用Matlab中的模拟退火工具箱设计并实现了一个基于模拟退火算法的汉字图像识别系统.系统针对图像在受到噪音干扰而模糊不清的问题,利用模拟退火算法使得神经网络模型的权值达到最优,即在克服了局部极小的基础上找到了全局最小点.通过利用Matlab进行验证,该系统在对受到噪音干扰的汉字图像进行识别时,能取得令人满意的结果.  相似文献   

6.
本文应用非常适合军用多功能外设汉字识别的Melin变换方法进行特征抽取,并针对目前普遍采用的汉字识别中可分性准则函数的局限性,提出了一种适合军用多功能外设中印刷体汉字识别特点的可分性准则函数。使用此函数进行汉字特征选择能保证不同汉字的分类特征距离大且同一汉字的聚类性较好。实验证明,选用此可分性准则函数可以选择较少的汉字特征,并使识别率有较大地提高。  相似文献   

7.
俞庆英  吴建国 《微机发展》2004,14(10):68-69,72
联机手写汉字识别(OLCCR),是指用笔在图形输入板上写字,人一边写,机器一边认,是一种方便的汉字识别手段。在各种自动识别输入的方法中,OLCCR是能够代替或部分代替人工编码输入的惟一可能的方法。识别中主要是两方面的问题:建立汉字识别库和手写板上笔画轨迹的识别。文中就第二方面即手写笔画识别的问题进行了全面的研究,采用笔画基元帮助分析笔画轨迹,并用可视化编程工具Visual C 6.0实现了基于这种方法的笔画识别过程。  相似文献   

8.
由于汉字笔画复杂,从视频中提取的汉字图像质量往往较差,采用传统光学字符识别(OCR)的结果不理想.为了解决低质量汉字图像的识别问题,提出一种基于分块搜索的两级识别方法.首先建立汉字图像的分块结构并模仿低质量汉字生成训练集,然后对训练集中各分块图像应用主成分分析提取特征并建立索引.待识别图像应用分块搜索和投票的方式从索引中获取候选汉字集合(一级识别),再根据投票结果的显著性辅以全局结构特征匹配识别汉字(二级识别).实验结果证明,该方法对于低质量汉字图像比普通的OCR方法具有更高的识别率.  相似文献   

9.
汉字识别技术是中文信息处理计算机化的关键技术,一直被国家列为重大科技攻关项目。自中汉王科技公司在国家863计划的支持下,经过广大科技人员多年的努力,在技术上取得了重大突破,较好地解决了手写汉字计算机自动输入问题,并首次开发出汉王全智能阅读器(手写和印刷OCR系统)。汉王全智能阅读器(OCR系统)是印刷体、手写汉字的扫描识别及联机手写汉字识别—汉王笔三合一软件,它通过扫描仪把印刷、手写文稿扫描成图像、然后识别出相应的汉字代码,对  相似文献   

10.
基于笔划包围盒的脱机手写体汉字分割算法   总被引:1,自引:3,他引:1  
汉字分割是脱机手写体汉字识别预处理的重要部分,改进了基于笔画包围盒的汉字分割算法。根据方向行程长度提取出汉字的笔画,对所得笔画建立包围盒。使用4种基本合并操作得到汉字的粗略的分割。最后使用动态规划的方法实现汉字的精细分割。实验结果表明,该算法较好地解决了汉字分割中的笔画粘连和重叠问题。  相似文献   

11.
模糊汉字的辨认在文本处理中是一个有待解决的问题,提出了一种基于语义的模糊匹配算法,该方法把语义的理解和模糊模式匹配相结合,从而来解决模糊字的辨认问题。  相似文献   

12.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

13.
为净化网络环境,需要对网络信息进行审查。针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体的时候有较高的查全率和查准率。  相似文献   

14.
由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。  相似文献   

15.
In this paper,we introduce a speaker-dependent isolated word recognizer which isdedicated for Chinese character input.The method presented here offers an effective solution tothe large-vocabulary recognition problem by carrying out recognition hierachically.Thevocabulary consists of 800 to 1000 words.The average recognition rate is 90% whenmonosyllable words takes up one third of the vocabulary.Recognition rate can reach 95% byselecting from the top 20 candidates.  相似文献   

16.
提出一种基于词内部模式的新词识别算法,该算法在重复串查找的基础上,结合词内部模式的特征提出改进位置成词概率和首尾单字成词概率的加权,依次判断互信息、邻接类别等统计量,对新词进行识别。通过不同的实验对比发现,该算法在一定程度上能有效提取新词。  相似文献   

17.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

18.
基于CRFs和跨事件的事件识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。  相似文献   

19.
传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系.提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关...  相似文献   

20.
基于决策树的汉语未登录词识别   总被引:13,自引:0,他引:13  
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号