首页 | 本学科首页   官方微博 | 高级检索  
     

最大熵和规则相结合的藏文句子边界识别方法
引用本文:李响,才藏太,姜文斌,吕雅娟,刘群. 最大熵和规则相结合的藏文句子边界识别方法[J]. 中文信息学报, 2011, 25(4): 39-45
作者姓名:李响  才藏太  姜文斌  吕雅娟  刘群
作者单位:1. 中国科学院 计算技术研究所,中国科学院 智能信息处理重点实验室,北京 100190;
2. 青海师范大学 计算机学院,青海 西宁 810008
基金项目:国家自然科学基金重大研究计划培育项目(90920004),国家自然科学基金重点资助项目(60736014)
摘    要:句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。

关 键 词:最大熵  句子边界识别  藏文信息处理  

A Maximum Entropy and Rules Approach to Identifying Tibetan Sentence Boundaries
LI Xiang,CAI Zangtai,JIANG Wenbin,LV Yajuan,LIU Qun. A Maximum Entropy and Rules Approach to Identifying Tibetan Sentence Boundaries[J]. Journal of Chinese Information Processing, 2011, 25(4): 39-45
Authors:LI Xiang  CAI Zangtai  JIANG Wenbin  LV Yajuan  LIU Qun
Affiliation:1. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100190, China;2. Computer College, Qinghai Normal University, Xining, Qinghai 810008, China
Abstract:Sentence boundary identification is a fundamental work in the field of Tibetan information processing.This paper proposes a maximum entropy and rules approach to identifying Tibetan sentence boundaries.First,the Tibetan boundary vocabulary based detector identifies the ambiguous sentence boundaries.Second,the maximum entropy model based detector identifies the ambiguous sentence boundaries which the former detector can't identify.By making use of Tibetan sentence boundary rules,this approach further reduces...
Keywords:maximum entropy  sentence boundary identification  Tibetan information processing  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号