首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在连续手写中文中,有偏旁部首离得较远的单字,单字之间可能会存在粘连、重叠。针对这种情况给出了一种基于识别得分提取单字的演化方法。对行笔划序列进行二进制编码,采用改进的遗传算法实现演化过程。染色体中连续0或1对应的笔划组成候选单字。用汉王手写单字识别器获取它们的识别得分,以单字个数较少和总的识别得分较大为优化目标。遗传算法中的变异概率和交叉概率自适应生成。测试结果表明该方法对连续手写中文具有较好的分割效果。  相似文献   

2.
本文面向手写字符序列输入信号连续识别研究,分析了汉字及联机手写文本的特点,提出并构建了手写汉字部件集。基于该部件集,完成了GB2312-80的6,763个汉字的部件拆分编码和部件集的测试。统计编码数据发现,汉字依手写部件数的分布规律呈对数正态分布。本文从统计学和字符识别技术的角度对手写部件的构字能力作了分析和讨论,部件集的设计方案在部件选择和汉字拆分上均满足设计要求。实验表明,基于手写部件构造的部件识别器对手写汉字和连续汉字的部件识别率分别达到70.21%和58.49%。  相似文献   

3.
本文在分析英文速记识别技术以及中文速记特点的基础上,提出了中文速记符的自动识别策略,并且以“人群速记”体系为研究对象,详细描述了用于识别速记符中297个音符的动态规划识别过程。通过采用局部平滑预处理,以及基于速记符形状特征和结构特征的粗分类措施,大大提高了动态规划识别速度和正确识别率。初步实验表明,对特定人书写的297个人群速记音符用动态规划法进行识别,正确识别率能达到93%以上。  相似文献   

4.
一种面向海量中文文本的典型类属关系识别方法   总被引:1,自引:0,他引:1  
传统基于文本的类属关系自动抽取算法只简单记录关系出现的位置、频次等信息,而忽略了大量上下文信息,不能有效辨识典型类属关系。为此,提出一种面向互联网文本典型类属关系的识别方法。通过提取实体概念的语言学特征和上下文语义特征构成实体特征集,基于朴素贝叶斯分类器,计算任意实体属于不同概念的可能性,从而识别典型类属关系。实验结果证明,与基于频率的识别方法相比,该方法能将典型类属关系的识别准确率提高5%以上。  相似文献   

5.
崔国伟 《自动化学报》1993,19(1):126-128
本文阐述了识别过程中的模糊表示,并介绍了以隶属度为启发函数的搜索过程.试验表明此方法较好地解决了汉字识别速度低的问题.  相似文献   

6.
为了进一步提高批量隐写的安全性, 针对以往自适应批量隐写方案的不足设计了一种简单可靠的新方案。首先借助基于随机森林的集成分类器确定当前隐写分析技术下图像的隐写容量, 在此基础上确定各个图像嵌入的信息量, 方案最大程度地利用了载体资源, 并通过对秘密信息进行分割分组进一步增强了安全性。实验结果表明, 隐写容量计算中的安全判定方法准确性高, 在保证低漏检率的同时避免了较高的虚警率, 且运行时间更短。  相似文献   

7.
董才正  刘柏嵩 《计算机应用》2016,36(4):1060-1065
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。  相似文献   

8.
面向中文文本分类的C4.5Bagging算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。  相似文献   

9.
手写中文地址识别后处理方法的研究   总被引:1,自引:0,他引:1  
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。  相似文献   

10.
结焦图像的处理与识别方法研究   总被引:2,自引:2,他引:0  
研究如何利用计算机图像处理与模式识别技术建立一套实时监测系统,从而有效地对锅炉结焦状态图像进行处理和识别。通过结焦图像处理系统获取位图格式的结焦图像,从中提取用于结焦状态诊断的特征量。设计了一个最小距离分类器,对其用大量样本进行训练和测试,并将待识别图像的特征向量作为分类器的输入量对其进行结焦状态的诊断。  相似文献   

11.
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类。在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分别送入卷积神经网络的中、英文识别模型中,得到手写文本识别结果。实验结果表明,在线手写中英文混合文本识别正确率达93.67%,不仅能切分在线手写中文文本行,而且对包含字符连笔的在线手写中英文文本行也有较好的切分效果。  相似文献   

12.
基于支持向量机的手写体相似字识别   总被引:22,自引:3,他引:19  
本文提出对手写相似汉字进行识别的支持向量机方法。该方法与人工神经网络一样适用于小规模分类,但由于支持向量机依据结构风险最小化原则,因此泛化能力更强。并且,由于支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。本文用支持向量机算法对三组手写相似汉字进行了识别,取得了较好的结果。  相似文献   

13.
黄弋石  梁艳  陆峥嵘 《软件》2013,34(5):67-70,90
为了解决手机的汉字联机识别,我们提供了完整的解决方案。先定义了一套六组基本定义,形成一种特殊的但是很简单的图形描述方法。将汉字楷书的常用字的笔画,进行统计归纳归类,找到有限的笔画组成。使用基本定义,描述楷书的独立笔画,这些描述是互不相同的。回避了传统的复杂的二维图形学的方法。经过穷举法验证,几乎每个常用汉字的拆解的内容,都互不相同,所以从逻辑上可判定这种方法是有效的。也提供并公布对汉字行书、草书的部分解决方案。形成了一个手机汉字连笔识别的体系。  相似文献   

14.
This paper presents a statistical approach for rule-base generation of handwriting recognition. The proposed method integrates the heuristic feature selection with the statistical evaluation and thus improves the performance of the rule generation as well as of the fuzzy handwriting recognition system. Fuzzy statistical measures are employed to identify relevant features from a given large handwriting database. First an automatic rule-base mechanism is presented. To reduce the time needed for this generation mechanism an additional heuristic feature selection step is introduced. Tests show that this generated rule-base improved the recognition results over previous approaches.  相似文献   

15.
一种有效的手写体汉字组合特征的抽取与识别算法   总被引:2,自引:0,他引:2  
基于特征融合的思想,从有利于模式分类的角度,推广了典型相关分析的理论,建立了广义的典型相关分析用于图像识别的理论框架。在该框架下,首先利用广义的典型相关判据准则函数,求取两组特征矢量的广义投影矢量集,构成一对变换矩阵;然后根据所提出的新的特征融合策略,对两种手写体汉字特征进行融合,所抽取的模式的相关特征矩阵,在普通分类器下取得了良好的分类效果,优于已有的特征融合方法及基于单一特征的PCA 方法和FLDA 方法。  相似文献   

16.
提出了一种新的基于主动判别函数的手写体识别方法.首先,提出了主子空间中基于统计特征的主动原型模板并给出了对应于待识模式的最优主动原型模板.然后,提出了主动判别函数,它是两个加权距离之和;其中一个是待识模式与主子空间的距离,另一个是待识模式与次子空间的距离.其次,作为主动判别函数的参数,主动原型模板的约束可应用最小分类错误准则进行优化,这一最优约束有助于提高主动判别函数的识别正确率.最后,在银行票据中使用的手写金融汉字样本库上进行实验.实验结果表明,主动判别函数在手写体识别方面是非常有前景的.  相似文献   

17.
蒙古文的一大特点是字符无缝连接,因此一个蒙古文单词有多种字符划分方式。根据蒙古文这一特点,该文提出了多尺度蒙古文脱机手写识别方法,即让一个手写蒙古文单词图像对应多种目标序列,用多个目标序列同时约束训练模型,使得模型更加精准地学习手写图像的细节信息和蒙古文构词规则。该文提出了“十二字头”码、变形显现码和字素码3种字符划分方法,且拥有相互包含关系,即“十二字头”码可以分解为变形显现码、变形显现码可以进一步分解为字素码。多尺度模型首先用多层双向长短时记忆网络对序列化手写图像进行处理,之后加入第一层连接时序分类器做“十二字头”码序列的映射,然后是第二层连接时序分类器做变形显现码序列的映射,最后是第三层连接时序分类器做字素码序列的映射。用三个连接时序分类器损失函数的和作为模型的总损失函数。实验结果表明,该模型在公开的蒙古文脱机手写数据集MHW上表现出了最佳性能,在简单的最佳路径解码方式下,测试集Ⅰ上的单词识别准确率为66.22%、测试集Ⅱ上为63.97%。  相似文献   

18.
皮桂林  赵晖 《计算机工程》2012,38(18):147-150
延迟笔画处理是维吾尔文联机手写体单词识别中的难点,样本数据格式为一串具有时序性的序列,造成字母主笔画和延迟笔画在序列位置上多半不连续,很大程度上增加了延迟笔画处理和单词识别的难度。为此,提出一种维吾尔文延迟笔画处理方法,其中包括延迟笔画查找与投影,实验结果证明该方法具有良好的效果,单词识别准确率达到93.71%。  相似文献   

19.
汉字识别方法综述   总被引:2,自引:0,他引:2       下载免费PDF全文
孙华  张航 《计算机工程》2010,36(20):194-197
分析汉字结构特征及其演变,在汉字字库及汉字识别目标变化的基础上,结合汉字识别过程,研究与比较贝叶斯决策、二次判别函数法、隐马尔科夫模型、神经网络分类器以及支持向量机这5种汉字识别方法的优缺点及适用范围。结果表明,汉字识别方法仍需要在识别目标及特征提取、训练字符集准备方面进行改进。  相似文献   

20.
为了进一步研究手写体不规则数码脱机识别技术,开发了手写体不规则数码识别软件,提出了一种新的识别方法——弧向判别法,对具有平滑特征的符号识别给出了一种可行的识别方法,实现中采用了查表细化法、数值重组等关键技术。实验表明,该软件识别的正确率在90%以上,大大地提高了工作效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号