首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
目前多种藏文编码方案的同时存在,为藏文文本的检索带来了困难。因此,藏文编码的自动识别成为进行藏文文本处理首先要解决的一个基本问题。结合藏文结构特点和统计学特征,文章提出了一种基于高频字丁和音节点区位码的藏文文本编码判定算法。经测试证实,该算法在藏文文本编码的判定中具有很高的准确度。  相似文献   

2.
联机手写藏文识别中字丁规范化处理   总被引:2,自引:0,他引:2  
通过对几种规范化处理算法的深入研究,根据联机手写藏文字丁的特点进行规范化处理,揭示出不同算法的内在本质规律;同时对联机手写藏文识别中的各种噪声进行分析,使用相应的方法消除噪声。使联机手写藏文识别系统的识别率得到一定的提高。  相似文献   

3.
印刷体现代藏文识别研究   总被引:7,自引:0,他引:7  
王维兰  丁晓青  陈力  王华 《计算机工程》2003,29(3):37-38,94
以印刷体现代藏文白体、黑体、圆体、长体、竹体为字体样张,通过预处理、文本行字切分、特征选择和分类识别的初步研究,获得对5种字体文本的平均识别率为89.582%,对其他字体的文本平均识别率为93.867%。  相似文献   

4.
藏文识别的预处理   总被引:9,自引:2,他引:7  
预处理是整个文字识别系统的重要组成部分,预处理性能的优劣将直接影响整个识别系统的性能,根据藏文字在字形和书写方式上的特点,实现了一种适用于藏文识别的预处理技术,整个预处理过程包括二值化、版面分析、倾斜校正、字符切和归一化,在预处理过程中还提取了一此圾关字丁的基本特征,这些特征充分反映了藏文的特点,具有良好的稳定性,可以用于识别系统的粗分类和后处理。  相似文献   

5.
基于统计与神经元方法相结合的手写体相似字识别   总被引:6,自引:0,他引:6  
本文提出了一种基于统计识别方法与人工神经元网络相结合的手写体相似汉字识别方法。该方法充分利用了统计识别方法和神经元网络识别方法的优点,不仅显著地提高了相似字的识别率,而且有效地提高了系统的整体性能。对相似字的识别率由79.02%提高到84.32% ,提高了五个百分点,整体识别率提高了1.3个百分点。  相似文献   

6.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

7.
喻莹  杨扬  董才林 《计算机工程》2006,32(17):10-11,1
相似字多是造成汉字识别误识率和拒识率高的主要原因之一,该文提出了一种基于动态特征选择的相似字识别方法,其识别过程从初始提取全局特征开始,然后逐步动态地、递归地加入更精细的局部特征以提高识别的判决力,直至识别结果满足判决条件为止。这种方法不需要人工确定相似字组,而且能自动选择相似字间区别最大的部分空间,构成新的特征向量。通过实验验证,该方法使相似字的识别率有了显著提高,证明了该方法的有效性。  相似文献   

8.
本文详细地分析了手写印刷体汉字中字形相似字的特点。采用对汉字点阵图象进行方向变换的方法, 利用汉字的笔道(黑点)方向和背景(白点)的封闭率特征表现近似字的局部差异, 在相似字特征判定表的引导下, 对字形相近的字进行判别, 取得了令人满意的效果。  相似文献   

9.
为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无需分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(Conditional Random Fields, CRF)算法,进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。  相似文献   

10.
在藏文信息处理领域,做藏文分词的学者很多,但是词义相似度在臧文中的运用却很少,由于藏文的句法特点与词形特点,编码方式等许多方面与中文有所不同,使得处理有一定的难度,尤其对于完全不懂藏文的人来说,更是如此。本文假设性的提出了基于藏文语料库的藏文词义相似度计算方法,该方法简单可行,从而弥补了藏文信息处理中的空白。  相似文献   

11.
多字体印刷藏文字符识别   总被引:5,自引:1,他引:5  
藏文字符识别系统是中文多文种信息处理系统的重要组成部分,但至今国内外的研究基本处于空白。本文提出了一种基于统计模式识别的多字体印刷藏文字符识别方法:从字符轮廓中抽取方向线素特征,利用线性鉴别分析(LDA)压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的两级分类策略,设计了带偏差欧氏距离分类器(EDD)完成高效的粗分类,细分类采用修正二次鉴别函数(MQDF)。通过实验选取恰当的分类器参数后,在容量为177,600字符(300样本/字符类)的测试集上的识别率达到99.79%,证明了该方法的有效性。  相似文献   

12.
方应谦  王鲁 《中文信息学报》2000,14(2):26-30,,48,
汉字识别中,以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出总是与待识字结构相似的一个侯选字集合。这是使后级识别容易产生误识的主要原因。为克服字分类器的缺点,本文给出了以词为单位的词分类器设计的策略与方法,并实验验证了词分类器在分类率及分类速度方面均优于字分类器。  相似文献   

13.
一种相似汉字的识别算法   总被引:7,自引:5,他引:7  
本文提出了一种通用的基于部分空间方法的相似汉字识别算法, 该算法无须事先确定相似字组, 也不必人工选择各个相似字组的部分空间, 能够自动决定待识别字是否需要进入相似字识别过程, 以及怎样选择部分空间。实验结果证明了本算法的有效性。  相似文献   

14.
一种多字体印刷藏文字符识别方法   总被引:4,自引:0,他引:4  
王华  丁晓青 《计算机工程》2004,30(13):18-20
提出了一种完整的多字体印刷藏文字符识别方法:先提取输入字符的方向线素特征组成特征向量,然后采用两级分类策略判定字符类别。该方法在训练集和测试集上的识别率分别达到99.73%和99.44%,证明了其有效性。  相似文献   

15.
该文针对手写维文字符识别中字符宽高比变化剧烈,单一模板归一化后提取字符特征,不能有效增加异类字符之间的差异性,提出了针对维文字形特点的多模板归一化算法。训练阶段,由多模板归一化字符图像,提取特征并训练对应分类器;识别阶段,用主笔画散度方向作为维文字形参数, 对不同字形选用最优模板进行归一化处理后提取特征,并送入该模板对应的分类器。多模版归一化有效利用了手写维文字符字形特征,克服了单模板归一化时异类维文字符差异减小的不利影响。实验结果表明多模板归一化算法较单模板归一化算法在识别性能上有所提高。  相似文献   

16.
车牌自动定位与识别方法研究   总被引:1,自引:0,他引:1  
刘成安  孙涛 《微计算机信息》2007,23(25):263-264,311
提出了一种车牌定位与字符识别方法,该方法可有效地提高车牌的定位能力、字符识别率、识别速度以及识别系统的泛化能力。实验结果表明:该方法的识别率超过97%,能有效地识别各种车牌中的字符,满足实际系统的要求。  相似文献   

17.
文字识别的难点和关键在于特征提取,文章把文字版面看作是含有特殊纹理信息的图像,利用Gabor变换,通过纹理分析提取出文字的全局特征。文字特征提取后,对其使用SVM进行训练学习。实验结果表明本方法能够较有效地提取出字符特征,并能有效地对字符进行分类。  相似文献   

18.
针对藏文舆情分析中藏文印刷品和藏文图片内容无法自动监测的难题,文章在深入分析印刷藏文字符特征和藏文文本特点的基础上,提出支持多字体印刷藏文内容监测系统的实现方法,重点阐述藏文字符的特征提取、分类算法以及藏文文本内容监测方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号