首页 | 本学科首页   官方微博 | 高级检索  
     

汉语分词中上文和下文重要性比较
引用本文:于江德,王希杰,樊孝忠.汉语分词中上文和下文重要性比较[J].计算机工程与应用,2011,47(4):117-120.
作者姓名:于江德  王希杰  樊孝忠
作者单位:1.安阳师范学院 计算机与信息工程学院,河南 安阳 455002 2.北京理工大学 计算机科学技术学院,北京 100081
基金项目:高等学校博士学科点专项科研基金项目(No.20050007023); 河南省高等学校青年骨干教师项目(No.2009GGJS-108)
摘    要:上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。

关 键 词:汉语分词  上下文  条件随机场  词位标注  特征模板  
收稿时间:2010-6-21
修稿时间:2010-8-25  

Comparing of importance of above-context versus below-context for Chinese word segmentation
YU Jiangde,WANG Xijie,FAN Xiaozhong.Comparing of importance of above-context versus below-context for Chinese word segmentation[J].Computer Engineering and Applications,2011,47(4):117-120.
Authors:YU Jiangde  WANG Xijie  FAN Xiaozhong
Affiliation:1.School of Computer and Information Engineering,Anyang Normal University,Anyang,Henan 455002,China 2.School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China
Abstract:Context is the necessary resource not only for obtaining linguistic knowledge in statistical linguistics but also for solving the problem in natural language processing.The performance of Chinese word segmentation has been greatly improved by word-position-based approaches in recent years.This approach treats Chinese word segmentation as a word-position tagging problem.To tag the word-position of current character needs the help of correlative context.To overcome the lack of giving the result by the subject...
Keywords:Chinese word segmentation  context  conditional random fields  word-position tagging  feature template
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号