共查询到20条相似文献,搜索用时 78 毫秒
1.
在连续手写中文中,有偏旁部首离得较远的单字,单字之间可能会存在粘连、重叠。针对这种情况给出了一种基于识别得分提取单字的演化方法。对行笔划序列进行二进制编码,采用改进的遗传算法实现演化过程。染色体中连续0或1对应的笔划组成候选单字。用汉王手写单字识别器获取它们的识别得分,以单字个数较少和总的识别得分较大为优化目标。遗传算法中的变异概率和交叉概率自适应生成。测试结果表明该方法对连续手写中文具有较好的分割效果。 相似文献
2.
本文面向手写字符序列输入信号连续识别研究,分析了汉字及联机手写文本的特点,提出并构建了手写汉字部件集。基于该部件集,完成了GB2312-80的6,763个汉字的部件拆分编码和部件集的测试。统计编码数据发现,汉字依手写部件数的分布规律呈对数正态分布。本文从统计学和字符识别技术的角度对手写部件的构字能力作了分析和讨论,部件集的设计方案在部件选择和汉字拆分上均满足设计要求。实验表明,基于手写部件构造的部件识别器对手写汉字和连续汉字的部件识别率分别达到70.21%和58.49%。 相似文献
3.
本文在分析英文速记识别技术以及中文速记特点的基础上,提出了中文速记符的自动识别策略,并且以“人群速记”体系为研究对象,详细描述了用于识别速记符中297个音符的动态规划识别过程。通过采用局部平滑预处理,以及基于速记符形状特征和结构特征的粗分类措施,大大提高了动态规划识别速度和正确识别率。初步实验表明,对特定人书写的297个人群速记音符用动态规划法进行识别,正确识别率能达到93%以上。 相似文献
4.
5.
本文阐述了识别过程中的模糊表示,并介绍了以隶属度为启发函数的搜索过程.试验表明此方法较好地解决了汉字识别速度低的问题. 相似文献
6.
7.
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。 相似文献
8.
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。 相似文献
9.
手写中文地址识别后处理方法的研究 总被引:1,自引:0,他引:1
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。 相似文献
10.
结焦图像的处理与识别方法研究 总被引:2,自引:2,他引:0
研究如何利用计算机图像处理与模式识别技术建立一套实时监测系统,从而有效地对锅炉结焦状态图像进行处理和识别。通过结焦图像处理系统获取位图格式的结焦图像,从中提取用于结焦状态诊断的特征量。设计了一个最小距离分类器,对其用大量样本进行训练和测试,并将待识别图像的特征向量作为分类器的输入量对其进行结焦状态的诊断。 相似文献
11.
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类。在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分别送入卷积神经网络的中、英文识别模型中,得到手写文本识别结果。实验结果表明,在线手写中英文混合文本识别正确率达93.67%,不仅能切分在线手写中文文本行,而且对包含字符连笔的在线手写中英文文本行也有较好的切分效果。 相似文献
12.
13.
14.
This paper presents a statistical approach for rule-base generation of handwriting recognition. The proposed method integrates the heuristic feature selection with the statistical evaluation and thus improves the performance of the rule generation as well as of the fuzzy handwriting recognition system. Fuzzy statistical measures are employed to identify relevant features from a given large handwriting database. First an automatic rule-base mechanism is presented. To reduce the time needed for this generation mechanism an additional heuristic feature selection step is introduced. Tests show that this generated rule-base improved the recognition results over previous approaches. 相似文献
15.
16.
提出了一种新的基于主动判别函数的手写体识别方法.首先,提出了主子空间中基于统计特征的主动原型模板并给出了对应于待识模式的最优主动原型模板.然后,提出了主动判别函数,它是两个加权距离之和;其中一个是待识模式与主子空间的距离,另一个是待识模式与次子空间的距离.其次,作为主动判别函数的参数,主动原型模板的约束可应用最小分类错误准则进行优化,这一最优约束有助于提高主动判别函数的识别正确率.最后,在银行票据中使用的手写金融汉字样本库上进行实验.实验结果表明,主动判别函数在手写体识别方面是非常有前景的. 相似文献
17.
蒙古文的一大特点是字符无缝连接,因此一个蒙古文单词有多种字符划分方式。根据蒙古文这一特点,该文提出了多尺度蒙古文脱机手写识别方法,即让一个手写蒙古文单词图像对应多种目标序列,用多个目标序列同时约束训练模型,使得模型更加精准地学习手写图像的细节信息和蒙古文构词规则。该文提出了“十二字头”码、变形显现码和字素码3种字符划分方法,且拥有相互包含关系,即“十二字头”码可以分解为变形显现码、变形显现码可以进一步分解为字素码。多尺度模型首先用多层双向长短时记忆网络对序列化手写图像进行处理,之后加入第一层连接时序分类器做“十二字头”码序列的映射,然后是第二层连接时序分类器做变形显现码序列的映射,最后是第三层连接时序分类器做字素码序列的映射。用三个连接时序分类器损失函数的和作为模型的总损失函数。实验结果表明,该模型在公开的蒙古文脱机手写数据集MHW上表现出了最佳性能,在简单的最佳路径解码方式下,测试集Ⅰ上的单词识别准确率为66.22%、测试集Ⅱ上为63.97%。 相似文献
18.
19.