首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

2.
藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用。该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略。实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39%、98.75%、98.57%。  相似文献   

3.
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。  相似文献   

4.
拼写检查作为文本处理中的重要内容,在字处理软件、文字识别、语音识别、搜索引擎等领域具有广泛的应用。该文以藏文语音特性建立的字组织法为依据,以藏文音节规则为模型,提出了藏文音节规则模型(TSRM)的藏文音节拼写检查算法,并通过2组实验验证了算法的有效性。在没有考虑梵音转写藏文的情况下,拼写错误检查的准确率可以达到99.8%。  相似文献   

5.
藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.0768%。  相似文献   

6.
分词是自然语言处理的一项基础性工作,对自然语言处理的后继工作有较大的影响。紧缩格的识别是藏文分词中最难最重要的技术之一。通过剖析已有藏文紧缩词识别方法,分析藏文字词的特征,针对性地提出了识别藏文紧缩格的规则算法、添加—还原算法和最大熵模型的特征模板,从而得到基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别方法。实验数据表明,该方法识别藏文紧缩格的准确率、召回率和F1值分别达99.26%、96.47%、97.85%,比现有最高的准确率有了较明显的提高。  相似文献   

7.
要实现藏文排序算法,必须解决组成藏文音节的构件元素识别,然后由构件元素的优先级进行排序。本文通过对藏文的文字结构、书写规律以及文法规则的研究,设计了符合现代藏文的构件元素识别算法。在该算法中对藏文特殊音节的二义性、双元音和缩写等问题进行了处理。实验表明该算法能够满足实际藏文构件元素识别的需要。另外,为了在国家编码标准下输入的藏文词语也能利用本算法正确识别其构件元素,在算法中做了相应处理。  相似文献   

8.
为了顺利实现藏文词语的排序算法,在藏文构件元素识别算法的基础上,该文通过建立藏文规则函数和定义藏文构件的优先级,提出了基于笛卡尔积数学模型的现代藏文音节的优先级算法。该方法既遵循藏文构词原则,又符合语法规则,同时为藏文词语排序算法提供了新的研究思路。最后该文用藏文“”系的所有满足语法规则的词语对本算法进行测试,结果表明该算法符合现代藏文词典的排序要求,且排序效率更好。  相似文献   

9.
藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。  相似文献   

10.
藏文识别补全技术使许多珍贵文献得以保存并传承,故在此采用了基于局部二值模式(LBP)直方图特征和可编程计数器阵列(PCA)方法的特征提取方法提取藏文字符特征,在对藏文字符分类识别后用TensorFlow框架训练识别藏文,同时使用两级生成式对抗网络进行文字补全。用户上传的残缺藏文图片可以通过5G网络连接到云端服务器,经过模型计算后返回最终分析结果。  相似文献   

11.
自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。  相似文献   

12.
藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结果表明该方法对藏文地名识别的准确率、召回率和[F]值分别达到了96.12%、81.92%和88.45%,实验结果与已有的系统相比,取得了较好的效果。  相似文献   

13.
该文提出了一种规则和藏字语法分析相结合的藏字自动校对算法, 不使用藏字字典和大规模语料库。通过研究藏字构字语法,得到藏字的结构特征,进而对藏字的字母组合进行分段处理,简化藏字构字复杂度,研究出各分段部分的构字规则,然后按照规则进行字的校对。实验表明,系统对现代藏文字的查错率达100%。  相似文献   

14.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

15.
在现代藏文自动校对中,对音节字()的校对是其基础。现代藏文二维的书写格式和独特的文法,还有格助词的黏着现象、音节字搭配规则和音节字中真词和非词错误等众多问题,使得对藏文自动校对的研究有别于英语和汉语的自动校对。针对现代藏文中音节字的特点,通过音节字预处理、字表匹配、混淆集匹配、二元接续关系、最小编辑距离法等方法对现代藏文音节字的自动校对进行详细论述。  相似文献   

16.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

17.
判断动词与存在动词在藏语中使用频度高,兼类现象频繁,在不同语境下具有不同的含义。既可以表示判断、存在和领有意义,也可作为语法标记表达复杂的体貌、示证意义。判断、存在动词的多功能性给藏文文本分词标注、句型识别等工作带来较大的困难。借助藏语语法的研究成果和真实藏文文本,我们对这两类词的上下文语境进行了分析和归纳,进而提出了辨别这两类词的方法。首先,考察判断动词和存在动词在不同语境下的左右特征词;然后,建立了识别规则库,从肯定与否定两个方面判别其词性并标注。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号