共查询到18条相似文献,搜索用时 140 毫秒
1.
脱机手写体满文文本识别系统的设计与实现 总被引:1,自引:0,他引:1
通过研究手写体圈点满文文字特征,提出采用基于笔画序列的脱机手写满文识别方法.首先使用数字图像处理方法对识别目标实现单词提取和预处理操作.然后将处理后的单词分解为笔画基元,采用统计模式识别方法进行识别,得到笔画序列.再把笔画序列转换为字根序列,使用模糊串匹配算法实现满文罗马转写的输出.最后再采用基于隐马尔可夫模型方法对单词识别结果进行后处理,进一步提高系统识别率.实验表明,在单一字体笔画学习和大语料双词同现概率统计的基础上,系统的识别率和自适应能力都较好. 相似文献
2.
维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义。利用HTK工具包,分别建立基于隐马尔科夫模型HMM(Hidden Markov Model)的印刷体维吾尔文和阿拉伯文识别系统,其中特征提取部分采用分布密度特征和局部方向特征。研究利用HTK工具建立维吾尔文和阿拉伯文统计语言模型,并将语言模型用于改进识别系统性能。实验结果表明采用统计语言模型可有效提高文字识别系统性能。其中,在包含24 000个单词的印刷体维吾尔文测试集上,通过利用语言模型识别率从78.28%提高到97.45%;在包含759个单词的印刷体阿拉伯文测试集上,通过利用语言模型识别率从79.07%提高到85.80%。 相似文献
3.
联机手写体汉字识别后处理技术的研究 总被引:4,自引:1,他引:3
文中提出了一种规则和统计相结合的计算语言模型应用于联机手写体汉字识别后处理的技术,把基于统计的大词表Markov语言模型与语言规则量化模型,通过词网格技术集成在一个语言解码器,这种后处理方法由3个阶段组成,词网格生成,语言解码,基于Cache的自学习机制,语言解码器采用Viterbi搜索算法求解最优语句候选,该项技术已应用于HPC(手持机)手写电脑的联机汉字手写体识别系统中,汉字识别率为91.3% 相似文献
4.
5.
6.
7.
基于HMM的汉语文本识别后处理琛 总被引:1,自引:0,他引:1
本文用HMM描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到:单字识别模型的参数为条件概率,经理论分析,它要转化为后难事概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。 相似文献
8.
9.
目前印刷体数学公式识别系统的输出还存在着误识结果,进行必要的后处理是提高识别率的重要手段.介绍了一种将印刷体数学公式识别结果与公式的语义知识相结合的方法,对其误识结果进行系统的分析,给出了若干条共有的规则及基准转移等方法,进行综合纠错的后处理,从而进一步完善印刷体数学公式识别系统.实验结果表明,该方法能够有效地提高系统识别结果的正确率. 相似文献
10.
11.
为提高脱机满文手写字体的识别率,提出了基于BP网络的多特征集成分类器识别方法.对扫描成图像的手写满文进行预处理,切分出满文字元;分别提取满文字元的投影特征、链码特征以及端点和交叉点特征,并对这三类特征及其相互组合进行分类识别;通过隐马尔科夫算法对识别结果进行后处理,进一步提高识别的精度.实验结果表明,集成分类器的识别率要比单个特征的识别率要高,同时集成分类器中的特征类别越多,识别效果越好. 相似文献
12.
13.
Bilan Zhu Xiang-Dong Zhou Cheng-Lin Liu Masaki Nakagawa 《International Journal on Document Analysis and Recognition》2010,13(2):121-131
This paper describes a robust context integration model for on-line handwritten Japanese text recognition. Based on string
class probability approximation, the proposed method evaluates the likelihood of candidate segmentation–recognition paths
by combining the scores of character recognition, unary and binary geometric features, as well as linguistic context. The
path evaluation criterion can flexibly combine the scores of various contexts and is insensitive to the variability in path
length, and so, the optimal segmentation path with its string class can be effectively found by Viterbi search. Moreover,
the model parameters are estimated by the genetic algorithm so as to optimize the holistic string recognition performance.
In experiments on horizontal text lines extracted from the TUAT Kondate database, the proposed method achieves the segmentation
rate of 0.9934 that corresponds to a f-measure and the character recognition rate of 92.80%. 相似文献
14.
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。 相似文献
15.
基于遗传算法的手写体汉字识别系统优化方法的研究 总被引:8,自引:0,他引:8
为了改善手写体汉字识别系统的性能,提出了前端单字识别器(SCR)和后端语言解码器(post-processing system)有效结合的模型,并且利用遗传算法对系统参数进行优化。以联机手写体汉字识别系统作为SCR进行测试,首选准确率为69.46%,汉字识别的准确率达到87.59%,较优化前提高6.4%。实验结果表明,遗传算法(GA)是一种有效的优化系统参数的方法。 相似文献
16.
17.
18.
基于决策树的汉语未登录词识别 总被引:13,自引:0,他引:13
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。 相似文献