首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
印刷体现代藏文识别研究   总被引:7,自引:0,他引:7  
王维兰  丁晓青  陈力  王华 《计算机工程》2003,29(3):37-38,94
以印刷体现代藏文白体、黑体、圆体、长体、竹体为字体样张,通过预处理、文本行字切分、特征选择和分类识别的初步研究,获得对5种字体文本的平均识别率为89.582%,对其他字体的文本平均识别率为93.867%。  相似文献   

2.
基于几何形状分析的藏文字符识别   总被引:1,自引:0,他引:1  
在分析藏文的几何结构的基础上,提出了一种基于几何形状分析的藏文识别方法。通过对藏文的辅音和元音符号的几何特征提取,达到学习的目的,根据印刷体藏文的组成结构特征,对其进行切分,进而分别对切分结果进行识别,将藏文字符转译为拉丁文,使得即使不认识藏文的人也能“读”藏文。实验结果表明,该方法的正确率达89%以上。  相似文献   

3.
在分析现有的藏文字丁特征提取方法--图像投影法和方向线素法的基础上,运用分形矩理论,提出一种基于分形矩的藏文字符特征提取方法,用该方法提取的特征有效反映藏文字丁的局部和全局特征,减少图像中像素位置变化给识别部分带来的负面影响,该方法在一定程度上克服藏文字丁极多而造成的误识率高的缺点,并且解决由于特征向量维数较多造成的运算速度慢的问题,针对592个类别的印刷体藏文字丁样本的对比实验表明,本文方法的识别率较现有的特征提取方法平均增加了2.48%,证明此方法具有较好的特征提取性能.  相似文献   

4.
藏文识别中相似字丁的区分研究   总被引:7,自引:0,他引:7  
相似字丁多是藏文识别中的一大难点。本文通过对相似字丁类型的研究,以及印刷体藏文识别结果的统计分析,得到图形结构的分析与识别结果相吻合的结论。说明必须根据藏文字丁的结构特点,在字符归一化、特征选择方面进行特殊的处理,以实现藏文识别中相似字丁的区分。  相似文献   

5.
联机手写藏文识别中字丁规范化处理   总被引:2,自引:0,他引:2  
通过对几种规范化处理算法的深入研究,根据联机手写藏文字丁的特点进行规范化处理,揭示出不同算法的内在本质规律;同时对联机手写藏文识别中的各种噪声进行分析,使用相应的方法消除噪声。使联机手写藏文识别系统的识别率得到一定的提高。  相似文献   

6.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

7.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

8.
藏文识别补全技术使许多珍贵文献得以保存并传承,故在此采用了基于局部二值模式(LBP)直方图特征和可编程计数器阵列(PCA)方法的特征提取方法提取藏文字符特征,在对藏文字符分类识别后用TensorFlow框架训练识别藏文,同时使用两级生成式对抗网络进行文字补全。用户上传的残缺藏文图片可以通过5G网络连接到云端服务器,经过模型计算后返回最终分析结果。  相似文献   

9.
藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。  相似文献   

10.
特征提取是文字识别中很重要的环节。藏文字识别中特征提取的方法有很多,但由于藏文字的字型有很多种特点,可以探索出适合藏文识别的最优特征提取方法。该文简述了藏文字型的特征及印刷体藏文字识别原理,主要讨论了符合藏文字的一种特征提取方法--网络点阵图形投影法。  相似文献   

11.
藏文识别的预处理   总被引:9,自引:2,他引:7  
预处理是整个文字识别系统的重要组成部分,预处理性能的优劣将直接影响整个识别系统的性能,根据藏文字在字形和书写方式上的特点,实现了一种适用于藏文识别的预处理技术,整个预处理过程包括二值化、版面分析、倾斜校正、字符切和归一化,在预处理过程中还提取了一此圾关字丁的基本特征,这些特征充分反映了藏文的特点,具有良好的稳定性,可以用于识别系统的粗分类和后处理。  相似文献   

12.
由于对字符提取骨架往往会失去受污损部位的重要信息,因此本文提出了一种基于蚁群算法的现代藏文字符轮廓提取算法,旨在用字符的轮廓线代替骨架线来表征字符。本算法用于印刷体藏文轮廓提取,取得了良好的效果,避免了传统细化算法造成的畸变,提高了轮廓提取的抗干扰能力,并且减小了计算量,加快了特征提取的速度。  相似文献   

13.
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。  相似文献   

14.
赵栋材 《微处理机》2012,33(5):35-38,43
木刻藏文经书文中出现字符间粘连、断裂、遮挡现象严重,为识别带来极大的困难。在字符切分、特征提取等文字识别方法基础上,增加了基于BP网络的训练方法,通过对大量的木刻藏文经书字符的训练,修正了数据,收敛了识别结果。实验结果显示,此方法有助于提高木刻藏文经书的文字识别正确率。  相似文献   

15.
一种现代藏文笔段提取算法   总被引:7,自引:0,他引:7  
针对藏文字符笔段的几何特征和拓扑结构,本文提出了一种基于字符轮廓信息的藏文笔段提取算法:通过链码跟踪的方法得到笔段轮廓的点列,然后从点列中提取特征点并利用特征点切分出笔段,最后用笔段的轮廓线代替骨架线来表征藏文的笔段。本算法用于印刷体藏文笔段提取,取得了良好的效果,避免了传统细化算法所造成的畸变,提高了笔段提取的抗干扰能力,并减小了计算量,加快了特征提取的速度。  相似文献   

16.
多字体印刷藏文字符识别   总被引:5,自引:1,他引:5  
藏文字符识别系统是中文多文种信息处理系统的重要组成部分,但至今国内外的研究基本处于空白。本文提出了一种基于统计模式识别的多字体印刷藏文字符识别方法:从字符轮廓中抽取方向线素特征,利用线性鉴别分析(LDA)压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的两级分类策略,设计了带偏差欧氏距离分类器(EDD)完成高效的粗分类,细分类采用修正二次鉴别函数(MQDF)。通过实验选取恰当的分类器参数后,在容量为177,600字符(300样本/字符类)的测试集上的识别率达到99.79%,证明了该方法的有效性。  相似文献   

17.
自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。  相似文献   

18.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

19.
藏文音节具有独特的构造方法,不同的构造位上有不同的藏文字符,根据不同的组合,构成了千变万化的藏文音节,由于字符的语音特性,藏文组合形式上有很多的限制。该文借助藏文文法规则和藏汉大词典,建立了现代藏文音节规则库,并分析了可能的应用领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号