首页 | 本学科首页   官方微博 | 高级检索  
     

哈萨克语动词短语自动识别研究与实现
引用本文:古丽扎达·海沙,古丽拉·阿东别克. 哈萨克语动词短语自动识别研究与实现[J]. 计算机工程与应用, 2015, 0(2): 218-223,240
作者姓名:古丽扎达·海沙  古丽拉·阿东别克
作者单位:1. 新疆艺术学院,乌鲁木齐,830046
2. 新疆大学 信息科学与工程学院,乌鲁木齐 830046; 国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地,乌鲁木齐 830046
基金项目:国家自然科学基金(No.61063025,No.60763005);新疆多语种信息技术重点实验室开放项目(No.049807)。
摘    要:由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。

关 键 词:哈萨克语基本动词短语  短语分析  歧义  最大熵模型  规则集

Research on automatic identification of base verb phrases in Kazakh
GULIZADAHaisa,GULILAAltenbek. Research on automatic identification of base verb phrases in Kazakh[J]. Computer Engineering and Applications, 2015, 0(2): 218-223,240
Authors:GULIZADAHaisa  GULILAAltenbek
Affiliation:GULIZADA·Haisa;GULILA·Altenbek;Xinjiang Arts University;College of Information Science and Engineering, Xinjiang University;The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center Minority Languages;
Abstract:
Keywords:Kazakh base verb phrase  phrase analysis  ambiguity  maximum entropy  rules collection
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号