首页 | 本学科首页   官方微博 | 高级检索  
     

基于序列标注的中文分词、词性标注模型比较分析
引用本文:刘一佳,车万翔,刘挺,张梅山. 基于序列标注的中文分词、词性标注模型比较分析[J]. 中文信息学报, 2013, 27(4): 30-37
作者姓名:刘一佳  车万翔  刘挺  张梅山
作者单位:哈尔滨工业大学 计算机学院 社会计算与信息检索研究中心,黑龙江 哈尔滨 150001
基金项目:国家自然科学基金重点资助项目,国家863重大资助项目,国家863先进技术研究资助项目
摘    要:该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比, 该融合模型均取得了最好的结果。

关 键 词:中文分词  词性标注  Stacked Learning  

A Comparison Study of Sequence Labeling Methods for Chinese Word Segmentation, POS Tagging Models
LIU Yijia , CHE Wanxiang , LIU Ting , ZHANG Meishan. A Comparison Study of Sequence Labeling Methods for Chinese Word Segmentation, POS Tagging Models[J]. Journal of Chinese Information Processing, 2013, 27(4): 30-37
Authors:LIU Yijia    CHE Wanxiang    LIU Ting    ZHANG Meishan
Affiliation:Research Center for Social Computing and Information Retrieval,
Harbin Institute of Technology, Harbin, Heilongjiang 150001, China
Abstract:In this paper, we compare three different Chinese word segmentation and POS tagging models.Accuracy and speed are considered during the comparison. First of these three models are pipelinesequential model. The second is a joint model for word segmentation and POS tagging, andthe last one is a combination of two modelsmentionedabove with a stacked learning framework. We conduct experiments on four data sets, including People Daily, CoNLL09, CTB5.0 and CTB7.0. Experimental results show that the joint model achieves the fastest speed while the stacked learning model achievesthe highest accuracy. Finally, we compare our stacked learning model with state-of-the-art systems on data sets CTB5.0 and CTB7.0 and our model achieve the best performance in this comparison.
Key wordsChinese Word Segmentation; POS tagging; Stacked Learning
Keywords:Chinese Word Segmentation  POS tagging  Stacked Learning
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号