首页 | 本学科首页   官方微博 | 高级检索  
     

基于“固结词串”实例的中文分词研究
引用本文:修驰,宋柔.基于“固结词串”实例的中文分词研究[J].中文信息学报,2012,26(3):59-65.
作者姓名:修驰  宋柔
作者单位:1. 北京工业大学 计算机学院,北京 100022;
2. 北京语言大学 语言信息处理研究所,北京 100083
基金项目:国家自然科学基金资助项目(60872121)
摘    要:近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。

关 键 词:中文分词  CRF  固结词串  分词歧义  机器学习  

Research on Stable String Example-Based Chinese Word Segmentation
XIU Chi , SONG Rou.Research on Stable String Example-Based Chinese Word Segmentation[J].Journal of Chinese Information Processing,2012,26(3):59-65.
Authors:XIU Chi  SONG Rou
Affiliation:1. College of Computer Science,Beijing University of Technology, Beijing 100022,China ;
2. Center of Language Information Processing,
Beijing Language and Culture University,Beijing 100083,China
Abstract:Chinese word segmentation based on CRF(Conditional Random Field) has attracted the most attention in recent research.But this method has certain defects in handling the ambiguity of word segmentation: eliminating most original ambiguity errors at the cost of more new errors.In this paper,we attempt on a simple and example-based machine learning method to deal with the problem of word segmentation ambiguity: the method based on stable string.The experiment results indicate that stable string based method can solve the ambiguity simple and effective.And it will not introduce more new errors.
Keywords:Chinese Word Segmentation(CWS)  CRF  stable string  ambiguity  machine learning
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号