混合策略的维吾尔语名词词干提取系统 |
| |
作者姓名: | 早克热·卡德尔 艾山·吾买尔 吐尔根·依布拉音 帕里旦·吐尔逊 吴小川 |
| |
作者单位: | 1.新疆大学 信息科学与工程学院,乌鲁木齐 830046
2.新疆多语种信息技术重点实验室,乌鲁木齐 830046
3.新疆大学 软件学院,乌鲁木齐 830046 |
| |
基金项目: | 新疆维吾尔自治区青年教师科研培育基金,国家自然科学基金,国家社科基金,新疆维吾尔自治区青年基金,电子信息产业发展基金维哈柯语言文字软件开发及产业化维哈柯文辅助翻译软件项目,新疆多语种信息技术重点实验室开放课题资助 |
| |
摘 要: | 通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地结合以上三种方法构造出了基于规则和统计的名词词干提取方法。为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计结合的名词词干提取方法相结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统。该系统具有较强的鲁棒性,准确率保持95%以上。
|
关 键 词: | 维吾尔语 黏着语 有限状态自动机 噪声信道 词干提取 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《计算机工程与应用》浏览原始摘要信息 |
|
点击此处可从《计算机工程与应用》下载全文 |
|