首页 | 本学科首页   官方微博 | 高级检索  
     

基于词缀库的非监督维吾尔语词切分方法
引用本文:薛化建,董兴华,王磊,吐尔洪·吾司曼,蒋同海. 基于词缀库的非监督维吾尔语词切分方法[J]. 计算机工程与设计, 2011, 32(9): 3191-3194
作者姓名:薛化建  董兴华  王磊  吐尔洪·吾司曼  蒋同海
作者单位:1. 中国科学院新疆理化技术研究所,新疆乌鲁木齐830011;中国科学院研究生院,北京100049
2. 中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011
基金项目:中国科学院“西部行动计划高新技术项目”基金项目
摘    要:在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。

关 键 词:维吾尔语  粘着语  词切分  词缀库  最大后验概率  非监督

Unsupervised Uyghur word segmentation method based on affix corpus
XUE Hua-jian,DONG Xing-hua,WANG Lei,TURGHUN · Osman,JIANG Tong-hai. Unsupervised Uyghur word segmentation method based on affix corpus[J]. Computer Engineering and Design, 2011, 32(9): 3191-3194
Authors:XUE Hua-jian  DONG Xing-hua  WANG Lei  TURGHUN · Osman  JIANG Tong-hai
Affiliation:1(1.Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences,Urumqi 830011,China; 2.Graduate University,Chinese Academy of Science,Beijing 100049,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号