首页 | 本学科首页   官方微博 | 高级检索  
     

融合多策略的维吾尔语词干提取方法
引用本文:赛迪亚古丽·艾尼瓦尔,向 露,宗成庆,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-211.
作者姓名:赛迪亚古丽·艾尼瓦尔  向 露  宗成庆  艾克白尔·帕塔尔  艾斯卡尔·艾木都拉
作者单位:1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;
2. 中国科学院自动化研究所 模式识别国家重点实验室,北京 100190
基金项目:国家自然科学基金(61163032)
摘    要:维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。


关 键 词:维吾尔语  形态  词干提取  N-gram模型  词性特征  上下文词干信息  

A Multi-Strategy Approach to Uyghur Stemming
Sediyegvl Enwer,Xiang Lu,Zong Chengqing,Akbar Pattar,Askar Hamdulla.A Multi-Strategy Approach to Uyghur Stemming[J].Journal of Chinese Information Processing,2015,29(5):204-211.
Authors:Sediyegvl Enwer  Xiang Lu  Zong Chengqing  Akbar Pattar  Askar Hamdulla
Affiliation:1. Institute of Information Science and Engineering,Xinjiang University, Urumqi, Xinjiang 830046, China;
2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Abstract:Uyghur is an agglutinative language with complex morphology, Uyghur words stem segmentation plays an important role in Uyghur language information processing. But so far, the performance of the Uyghur words stem segmentation still has much room for improvement .According to the constraints of Uyghur word formation, we proposed a stem segmentation model for Uyghur which fuses the part of speech feature and context information based on N-gram model. Experimental results show that, the part of speech feature and the context information of stem can increase the performance of Uyghur words stem segmentation significantly with the accuracy reaching 95.19% and 96.60% respectively compared to the baseline system.
Keywords:Uyghur  morphology  stem segmentation  N-gram model  part of speech  context information  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号