共查询到17条相似文献,搜索用时 183 毫秒
1.
项炜金澎 《计算机应用与软件》2014,(5):106-109
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。 相似文献
2.
3.
藏文自动分词系统中紧缩词的识别 总被引:9,自引:2,他引:7
在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理。因此,藏文分词是藏文信息处理的基础。该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法。其基本思想是利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的。该还原算法已应用到笔者承担的国家语委项目中。经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%。 相似文献
4.
5.
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。 相似文献
6.
7.
藏文信息处理已经从最初字处理转向了自然语言处理的阶段。现如今正逐步向句法分析、语句分析、自动文摘、自动分类和机器翻译迈进。但是这些都基于词的层面上研究处理,而词则受许多格标记和虚词的制约。因此,在藏文信息处理中对格标记的分词标注更是一件棘手和复杂的事。该文通过研究藏文信息中的兼类虚词na和la,提出了如何在不同的语境中,处理和解决这类词性的标注问题。 相似文献
8.
9.
SegT一个实用的藏文分词系统 总被引:3,自引:0,他引:3
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 相似文献
10.
11.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。 相似文献
12.
13.
基于多功能逻辑运算分析技术的汉语分词 总被引:3,自引:0,他引:3
孙建军 《计算机研究与发展》1998,35(5):385-388
文中提出了一种基于多功能运算分析技术的汉语自动分词方法,其特点是在汉语词语字序列的计算机内部表示上采用多功能逻辑运算表达式方式,从而使汉语分词过程中以往有用的简单模式比较匹配转换为多模式逻辑运算下的功能操作。 相似文献
14.
15.
16.
藏语语料库词语分类体系及标记集研究 总被引:1,自引:1,他引:0
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。 相似文献