首页 | 本学科首页   官方微博 | 高级检索  
     

SegT一个实用的藏文分词系统
引用本文:刘汇丹,诺明花,赵维纳,吴健,贺也平. SegT一个实用的藏文分词系统[J]. 中文信息学报, 2012, 26(1): 97-104
作者姓名:刘汇丹  诺明花  赵维纳  吴健  贺也平
作者单位:1. 中国科学院 软件研究所,北京 100190;2. 中国科学院 研究生院,北京 100190;
3. 北京语言大学,北京 100083;4. 青海师范大学, 青海 西宁 810008
基金项目:国家重大科技专项资助项目(2010ZX01036-001-002,2010ZX01037-001-002);中国科学院西部行动计划资助项目(KGCX2-YW-512)
摘    要:在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。

关 键 词:藏文分词  格助词  临界词识别  词频统计  藏文信息处理  中文信息处理  

SegT:A Practical Tibetan Word Segmentation System
LIU Huidan , NUO Minghua , ZHAO Weina , WU Jian , HE Yeping. SegT:A Practical Tibetan Word Segmentation System[J]. Journal of Chinese Information Processing, 2012, 26(1): 97-104
Authors:LIU Huidan    NUO Minghua    ZHAO Weina    WU Jian    HE Yeping
Affiliation:1. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;
2. Graduate University of the Chinese Academy of Sciences, Beijing 100190, China;
3. Beijing Language and Culture University, Beijing 100083, China;4. Qinghai Normal University, Xining, Qinghai 810008, China
Abstract:This paper designs and implements a Tibetan word segmentation system named "SegT".It identifies critical words with a fast algorithm based on the trie structure when it segments each Tibetan sentence to blocks with case-auxiliary words.Then,it identifies abbreviated words when it segments each block to words by maximum matching.Finally,it detects ambiguities by bidirectional segmentation,and solve them by word frequency.Experiments show that it improves the segmenting speed by about 15% after applying the block segmentation method based on case-auxiliary words,but the block segmentation doesn’t significantly increase or decrease the precision.The precision of the system reaches 96.98%,which shows that it’s a practical system.
Keywords:Tibetan word segmentation  case-auxiliary words  critical word detection  word frequency statistics  Tibetan information processing  Chinese information processing
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号