首页 | 本学科首页   官方微博 | 高级检索  
     

维吾尔语词法中音变现象的自动还原模型
引用本文:麦热哈巴·艾力,姜文斌,吐尔根·依布拉音. 维吾尔语词法中音变现象的自动还原模型[J]. 中文信息学报, 2012, 26(1): 91-97
作者姓名:麦热哈巴·艾力  姜文斌  吐尔根·依布拉音
作者单位:1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 中国科学院 计算技术研究所,北京 100190
基金项目:新疆大学优秀博士创新项目基金资助;国家自然科学基金资助项目(61063026);国家社会科学基金重点资助项目(10AYY006);新疆高校青年教师科研培养基金资助项目(XJEDU2010S07);国家工信部电子发展基金资助项目(工信部财(2009)453)
摘    要:该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。

关 键 词:维吾尔语  词法分析  维吾尔语变音现象  

Lemmatization of Uyghur Inflectional Words
Mairehaba·aili , JIANG Wenbin , Tuergen·yibulayin. Lemmatization of Uyghur Inflectional Words[J]. Journal of Chinese Information Processing, 2012, 26(1): 91-97
Authors:Mairehaba·aili    JIANG Wenbin    Tuergen·yibulayin
Affiliation:1. Xinjiang University Information science and Technology institute, Urumqi, Xinjing 830046, China;
2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China
Abstract:We propose an automatic lemmatization model for Uyghur inflectional phenomenon.In contrast to previous methods,we generalize the inflection in Uyghur conceptually,and treat the lemmatization with the sequence tagging models,.Using the "Uyghur million word Part-of-Speech tagging corpus" as the training data,the proposed method improves the F value of lemmatization up to 91.4% from 84.1%,especially attaining an F value of 88.6% for Uyghur verbs which are rich in suffixes and complex.
Keywords:Uyghur language  morphological analysis  Uyghur inflection
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号