共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
基于几何形状分析的藏文字符识别 总被引:1,自引:0,他引:1
在分析藏文的几何结构的基础上,提出了一种基于几何形状分析的藏文识别方法。通过对藏文的辅音和元音符号的几何特征提取,达到学习的目的,根据印刷体藏文的组成结构特征,对其进行切分,进而分别对切分结果进行识别,将藏文字符转译为拉丁文,使得即使不认识藏文的人也能“读”藏文。实验结果表明,该方法的正确率达89%以上。 相似文献
3.
在分析现有的藏文字丁特征提取方法--图像投影法和方向线素法的基础上,运用分形矩理论,提出一种基于分形矩的藏文字符特征提取方法,用该方法提取的特征有效反映藏文字丁的局部和全局特征,减少图像中像素位置变化给识别部分带来的负面影响,该方法在一定程度上克服藏文字丁极多而造成的误识率高的缺点,并且解决由于特征向量维数较多造成的运算速度慢的问题,针对592个类别的印刷体藏文字丁样本的对比实验表明,本文方法的识别率较现有的特征提取方法平均增加了2.48%,证明此方法具有较好的特征提取性能. 相似文献
4.
5.
联机手写藏文识别中字丁规范化处理 总被引:2,自引:0,他引:2
通过对几种规范化处理算法的深入研究,根据联机手写藏文字丁的特点进行规范化处理,揭示出不同算法的内在本质规律;同时对联机手写藏文识别中的各种噪声进行分析,使用相应的方法消除噪声。使联机手写藏文识别系统的识别率得到一定的提高。 相似文献
6.
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。 相似文献
7.
《计算机应用与软件》2017,(9)
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。 相似文献
8.
段婉亭徐懿苏蕊李春岩杨舒涵 《电脑编程技巧与维护》2023,(5):116-118
藏文识别补全技术使许多珍贵文献得以保存并传承,故在此采用了基于局部二值模式(LBP)直方图特征和可编程计数器阵列(PCA)方法的特征提取方法提取藏文字符特征,在对藏文字符分类识别后用TensorFlow框架训练识别藏文,同时使用两级生成式对抗网络进行文字补全。用户上传的残缺藏文图片可以通过5G网络连接到云端服务器,经过模型计算后返回最终分析结果。 相似文献
9.
才藏太 《计算机工程与科学》2012,34(6):187-190
藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。 相似文献
10.
白玛玉珍 《数字社区&智能家居》2013,(10):6362-6364
特征提取是文字识别中很重要的环节。藏文字识别中特征提取的方法有很多,但由于藏文字的字型有很多种特点,可以探索出适合藏文识别的最优特征提取方法。该文简述了藏文字型的特征及印刷体藏文字识别原理,主要讨论了符合藏文字的一种特征提取方法--网络点阵图形投影法。 相似文献
11.
12.
由于对字符提取骨架往往会失去受污损部位的重要信息,因此本文提出了一种基于蚁群算法的现代藏文字符轮廓提取算法,旨在用字符的轮廓线代替骨架线来表征字符。本算法用于印刷体藏文轮廓提取,取得了良好的效果,避免了传统细化算法造成的畸变,提高了轮廓提取的抗干扰能力,并且减小了计算量,加快了特征提取的速度。 相似文献
13.
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。 相似文献
14.
木刻藏文经书文中出现字符间粘连、断裂、遮挡现象严重,为识别带来极大的困难。在字符切分、特征提取等文字识别方法基础上,增加了基于BP网络的训练方法,通过对大量的木刻藏文经书字符的训练,修正了数据,收敛了识别结果。实验结果显示,此方法有助于提高木刻藏文经书的文字识别正确率。 相似文献
15.
16.
多字体印刷藏文字符识别 总被引:5,自引:1,他引:5
藏文字符识别系统是中文多文种信息处理系统的重要组成部分,但至今国内外的研究基本处于空白。本文提出了一种基于统计模式识别的多字体印刷藏文字符识别方法:从字符轮廓中抽取方向线素特征,利用线性鉴别分析(LDA)压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的两级分类策略,设计了带偏差欧氏距离分类器(EDD)完成高效的粗分类,细分类采用修正二次鉴别函数(MQDF)。通过实验选取恰当的分类器参数后,在容量为177,600字符(300样本/字符类)的测试集上的识别率达到99.79%,证明了该方法的有效性。 相似文献
17.
自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。 相似文献
18.