首页 | 本学科首页   官方微博 | 高级检索  
     

基于条件随机场的汉语分词系统
引用本文:李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(28):178-180.
作者姓名:李双龙  刘群  王成耀
作者单位:1. 100083,北京,北京科技大学;100080,北京,中科院计算所
2. 100080,北京,中科院计算所
3. 100083,北京,北京科技大学
基金项目:国家高技术研究发展计划(863计划);国家高技术研究发展计划(863计划)
摘    要:汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。

关 键 词:汉语分词  条件随机场  感知机
文章编号:1008-0570(2006)10-1-0178-03
修稿时间:2006年2月5日

CRF-based Chinese Word Segmentation Research
Li,Shuanglong,Liu,Qun,Wang,Cheng-yao.CRF-based Chinese Word Segmentation Research[J].Control & Automation,2006,22(28):178-180.
Authors:Li  Shuanglong  Liu  Qun  Wang  Cheng-yao
Abstract:Chinese word segmentation is the basic task in the NLP research.A CRF-based word segmentation system is proposed in this paper.CRF model which is a discriminable model can incorporate any arbitrary and non-independent feature.Firstly,we convert the segmentation to a tagging problem.Then,the characters are tagged by CRF model,and the corresponding segmentation result is obtained.A perceptron algorithm is used in training parameters.The system is tested in the 1st SIGHAN PK testing set and the F-value is 95.2%.
Keywords:Chinese word segmentation  CRF  Perceptron
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号