首页 | 本学科首页   官方微博 | 高级检索  
     

基于半监督CRF的跨领域中文分词
引用本文:邓丽萍,罗智勇. 基于半监督CRF的跨领域中文分词[J]. 中文信息学报, 2017, 31(4): 9-19
作者姓名:邓丽萍  罗智勇
作者单位:1. 北京语言大学 信息科学学院, 北京 100083;
2. 北京语言大学 语言信息处理研究所, 北京 100083
基金项目:北京市哲学社会科学规划研究基地项目(13JDZHB005);中央高校基本科研业务费专项资金(09YB09)
摘    要:中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。

关 键 词:跨领域  中文分词  半监督CRF  

Domain Adaptation of Chinese Word Segmentation on Semi-Supervised Conditional Random Fields
DENG Liping,LUO Zhiyong. Domain Adaptation of Chinese Word Segmentation on Semi-Supervised Conditional Random Fields[J]. Journal of Chinese Information Processing, 2017, 31(4): 9-19
Authors:DENG Liping  LUO Zhiyong
Affiliation:1. College of Information Science,Beijing Language and Culture University,Beijing 100083,China;
2. Institute of Linguistic Information Processing,Beijing Language and Culture University,Beijing 100083,China
Abstract:Applying the minimum entropy regularization framework to the supervised CRF model, this paper proposes a semi-supervised CRF model that combing the supervised learning on the labeled text in common domain with the unsupervised learning on the unlabeled text in the target professional domain. The domain adaptation is further improved by introducing a domain dictionary and a tagged corpus. Experiments on a cross domain segmentation task show that proposed method out-performs supervised CRF in terms of OOV recall and F-value.
Keywords:cross domain   Chinese word segmentation   semi-supervised conditional random field  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号