首页 | 本学科首页   官方微博 | 高级检索  
     

统计与规则相结合的维吾尔语句子边界识别
引用本文:艾山·吾买尔,吐尔根·依步拉音.统计与规则相结合的维吾尔语句子边界识别[J].计算机工程与应用,2010,46(14):162-165.
作者姓名:艾山·吾买尔  吐尔根·依步拉音
作者单位:新疆大学 信息科学与工程学院,乌鲁木齐 830046
基金项目:国家自然科学基金No.60663006;;新疆维吾尔自治区高新技术计划项目No.200712109~~
摘    要:句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。

关 键 词:维吾尔文  句子边界识别  规则  特征选择  最大熵  
收稿时间:2009-4-22
修稿时间:2009-6-22  

Sentence boundary detection of Uyghur based on rules and statistics
AISHAN Wumaier,TUERGEN Yibulayin.Sentence boundary detection of Uyghur based on rules and statistics[J].Computer Engineering and Applications,2010,46(14):162-165.
Authors:AISHAN Wumaier  TUERGEN Yibulayin
Affiliation:School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
Abstract:Sentence boundary is an important initial task for many natural language processing applications,such as part-of-speech tagging and parsing etc.This paper proposes an automatic sentence boundary detection method of Uyghur based on rules and statistic.Firstly,the paragraph detecting algorithm classifies the ambiguous and unambiguous paragraph.In the second step,the rule based sentence boundary detector process the unambiguous paragraphs.Finally,the maximum entropy based sentence boundary detecting model iden...
Keywords:Uyghur  sentence boundary detection  rule  feature extraction  maximum entropy
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号