首页 | 本学科首页   官方微博 | 高级检索  
     

基于子词的双层CRFs中文分词
引用本文:黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词[J].计算机研究与发展,2010,47(5).
作者姓名:黄德根  焦世斗  周惠巍
作者单位:大连理工大学计算机科学与技术学院,大连,116024
基金项目:国家“八六三”高技术研究发展计划基金项目(2006AA012140)~~
摘    要:提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.

关 键 词:中文分词  条件随机场  双层条件随机场  子词  子词过滤  

Dual-Layer CRFs Based on Subword for Chinese Word Segmentation
Huang Degen,Jiao Shidou,Zhou Huiwei.Dual-Layer CRFs Based on Subword for Chinese Word Segmentation[J].Journal of Computer Research and Development,2010,47(5).
Authors:Huang Degen  Jiao Shidou  Zhou Huiwei
Affiliation:School of Computer Science and Technology;Dalian University of Technology;Dalian 116024
Abstract:A subword based dual-layer CRFs(conditional random fields) method for Chinese word segmentation is proposed,which aims to solve the problem of word segmentation disambiguation and unknown words recognition.Previous work in CRFs reported that the subword-based tagging outperforms the character-based tagging in all comparative experiments.However,subwords-based tagging often produces errors of cross word boundaries.This method is established on sequence labeling methods based on subwords,which are selected wi...
Keywords:Chinese word segmentation  CRFs  dual-layer CRFs  subword  subword filtering  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号