首页 | 本学科首页   官方微博 | 高级检索  
     

中文分词模型的领域适应性方法
引用本文:韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2).
作者姓名:韩冬煦  常宝宝
作者单位:北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室 北京 100871
基金项目:The research is supported by the National Natural Science Foundation of China,the National Social Science Foundation of China (Grant No.06BYY048).本课题得到国家自然科学基金,国家社会科学基金
摘    要:字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.

关 键 词:卡方统计量  边界熵  领域适应性  自举算法  中文分词  社会计算  社交网络

Approaches to Domain Adaptive Chinese Segmentation Model
HAN Dong-Xu,CHANG Bao-Bao.Approaches to Domain Adaptive Chinese Segmentation Model[J].Chinese Journal of Computers,2015,38(2).
Authors:HAN Dong-Xu  CHANG Bao-Bao
Abstract:
Keywords:chi-square statistics  boundary entropy  domain adaptability  bootstrapping method  Chinese Word Segmentation (CWS)  social computing  social networks
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号