首页 | 本学科首页   官方微博 | 高级检索  
     

基于感知器的中文分词增量训练方法研究
引用本文:韩 冰,刘一佳,车万翔,刘 挺. 基于感知器的中文分词增量训练方法研究[J]. 中文信息学报, 2015, 29(5): 49-55
作者姓名:韩 冰  刘一佳  车万翔  刘 挺
作者单位:哈尔滨工业大学 计算机学院社会计算与信息检索研究中心,黑龙江 哈尔滨 150001
摘    要:该文提出了一种基于感知器的中文分词增量训练方法。该方法可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。实验表明,增量训练可以有效提升领域适应性,达到与传统数据混合相类似的效果。同时该文方法模型占用空间小,训练时间短,可以快速训练获得目标领域的模型。


关 键 词:中文分词  领域适应  增量训练  

An Incremental Learning Scheme for Perceptron Based Chinese Word Segmentation
HAN Bing,LIU Yijia,CHE Wanxiang,LIU Ting. An Incremental Learning Scheme for Perceptron Based Chinese Word Segmentation[J]. Journal of Chinese Information Processing, 2015, 29(5): 49-55
Authors:HAN Bing  LIU Yijia  CHE Wanxiang  LIU Ting
Affiliation:Research Center for Social Computing and Information Retrieval,
Harbin Institute of Technology, Harbin, Hei Longjiang 150001, China
Abstract:In this paper, we propose an incremental learning scheme for perceptron based Chinese word segmentation. Our method can perform continuous training over a fine tuned source domain model, enabling to deliver model without annotated data and re-training. Experimental results shows the scheme proposed can significantly improve adaptation performance on Chinese word segmentation and achieve comparable performance with traditional method. At the same time, our method can significantly reduce the model size and the training time.
Keywords:Chinese word segmentation  domain adaptation  incremental learning  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号