首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
脱机手写体满文文本识别系统的设计与实现   总被引:1,自引:0,他引:1  
通过研究手写体圈点满文文字特征,提出采用基于笔画序列的脱机手写满文识别方法.首先使用数字图像处理方法对识别目标实现单词提取和预处理操作.然后将处理后的单词分解为笔画基元,采用统计模式识别方法进行识别,得到笔画序列.再把笔画序列转换为字根序列,使用模糊串匹配算法实现满文罗马转写的输出.最后再采用基于隐马尔可夫模型方法对单词识别结果进行后处理,进一步提高系统识别率.实验表明,在单一字体笔画学习和大语料双词同现概率统计的基础上,系统的识别率和自适应能力都较好.  相似文献   

2.
维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义。利用HTK工具包,分别建立基于隐马尔科夫模型HMM(Hidden Markov Model)的印刷体维吾尔文和阿拉伯文识别系统,其中特征提取部分采用分布密度特征和局部方向特征。研究利用HTK工具建立维吾尔文和阿拉伯文统计语言模型,并将语言模型用于改进识别系统性能。实验结果表明采用统计语言模型可有效提高文字识别系统性能。其中,在包含24 000个单词的印刷体维吾尔文测试集上,通过利用语言模型识别率从78.28%提高到97.45%;在包含759个单词的印刷体阿拉伯文测试集上,通过利用语言模型识别率从79.07%提高到85.80%。  相似文献   

3.
联机手写体汉字识别后处理技术的研究   总被引:4,自引:1,他引:3  
文中提出了一种规则和统计相结合的计算语言模型应用于联机手写体汉字识别后处理的技术,把基于统计的大词表Markov语言模型与语言规则量化模型,通过词网格技术集成在一个语言解码器,这种后处理方法由3个阶段组成,词网格生成,语言解码,基于Cache的自学习机制,语言解码器采用Viterbi搜索算法求解最优语句候选,该项技术已应用于HPC(手持机)手写电脑的联机汉字手写体识别系统中,汉字识别率为91.3%  相似文献   

4.
基于N-gram语言模型的汉字识别后处理研究   总被引:1,自引:0,他引:1  
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息.该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理.经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%.  相似文献   

5.
手写设备用户容易忘记特定中文单字写法,需要为其提供拼音输入法。采用分类器融合方式构筑拼音单词识别系统,通过隐马尔可夫模型分类器获得拼音单词的切分点,利用统计特征识别模块进行识别后融合,研究并改进拼音单词基线提取方法。实验结果表明,该方法对17 745个测试样本的识别率达91.37%。  相似文献   

6.
基于HMM的汉语文本识别后处理研究   总被引:9,自引:1,他引:8  
本文用HMM(Hidden Markov Model)描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到;单字识别模型的参数为条件概率,经理论分析,它可转化为后验概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

7.
基于HMM的汉语文本识别后处理琛   总被引:1,自引:0,他引:1  
本文用HMM描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到:单字识别模型的参数为条件概率,经理论分析,它要转化为后难事概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

8.
基于知识的满文识别后处理   总被引:1,自引:0,他引:1  
为提高手写满文的整体文本识别率,基于规则和统计的方法提出以构建语料为主、规则为辅的满文语言知识库,并将其他应用于满文手写体字符识别结果中候选字的后验概率统计中.小范围测试样本表明该方法的有效性较高.  相似文献   

9.
田学东  王文姣 《计算机工程与设计》2007,28(20):5039-5041,5044
目前印刷体数学公式识别系统的输出还存在着误识结果,进行必要的后处理是提高识别率的重要手段.介绍了一种将印刷体数学公式识别结果与公式的语义知识相结合的方法,对其误识结果进行系统的分析,给出了若干条共有的规则及基准转移等方法,进行综合纠错的后处理,从而进一步完善印刷体数学公式识别系统.实验结果表明,该方法能够有效地提高系统识别结果的正确率.  相似文献   

10.
置信度判决是现代语音识别系统中重要的后处理模块,能够基于语音识别结果及相关信息有效地实现识别错误检测和集外词拒识等功能。本文主要针对受限命令词语音识别系统中的置信度提出两种改进方案,分别是基于高斯混合模型的音素相关置信度得分规整,以及传统置信度特征和时长特征的融合。在中英文测试集上的实验结果表明,上述两种改进方案相对于置信度基线系统的性能都能够获得显著的性能提升,且在性能提升上具有可叠加性。  相似文献   

11.
为提高脱机满文手写字体的识别率,提出了基于BP网络的多特征集成分类器识别方法.对扫描成图像的手写满文进行预处理,切分出满文字元;分别提取满文字元的投影特征、链码特征以及端点和交叉点特征,并对这三类特征及其相互组合进行分类识别;通过隐马尔科夫算法对识别结果进行后处理,进一步提高识别的精度.实验结果表明,集成分类器的识别率要比单个特征的识别率要高,同时集成分类器中的特征类别越多,识别效果越好.  相似文献   

12.
13.
This paper describes a robust context integration model for on-line handwritten Japanese text recognition. Based on string class probability approximation, the proposed method evaluates the likelihood of candidate segmentation–recognition paths by combining the scores of character recognition, unary and binary geometric features, as well as linguistic context. The path evaluation criterion can flexibly combine the scores of various contexts and is insensitive to the variability in path length, and so, the optimal segmentation path with its string class can be effectively found by Viterbi search. Moreover, the model parameters are estimated by the genetic algorithm so as to optimize the holistic string recognition performance. In experiments on horizontal text lines extracted from the TUAT Kondate database, the proposed method achieves the segmentation rate of 0.9934 that corresponds to a f-measure and the character recognition rate of 92.80%.  相似文献   

14.
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。  相似文献   

15.
基于遗传算法的手写体汉字识别系统优化方法的研究   总被引:8,自引:0,他引:8  
为了改善手写体汉字识别系统的性能,提出了前端单字识别器(SCR)和后端语言解码器(post-processing system)有效结合的模型,并且利用遗传算法对系统参数进行优化。以联机手写体汉字识别系统作为SCR进行测试,首选准确率为69.46%,汉字识别的准确率达到87.59%,较优化前提高6.4%。实验结果表明,遗传算法(GA)是一种有效的优化系统参数的方法。  相似文献   

16.
17.
提出了一种新的基于高斯概率模型的字符识别算法,该算法根据模式识别的样本分布特征与高斯分布的一致性,构建了一个高斯概率模型.在模型中存储概率为P的训练样本,分类识别时,将测试样本与模型进行相关计算得出概率值,进行判断.结果表明,该算法识别速度快,准确率高,与其他字符识别算法(KNN)相比有更好的实用性.  相似文献   

18.
基于决策树的汉语未登录词识别   总被引:13,自引:0,他引:13  
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号