首页 | 本学科首页   官方微博 | 高级检索  
     

CRF模型中参数f在字标注汉语分词中的适用性研究
引用本文:赵晓凡,胡顺义,刘永革. CRF模型中参数f在字标注汉语分词中的适用性研究[J]. 郑州大学学报(工学版), 2011, 0(4)
作者姓名:赵晓凡  胡顺义  刘永革
作者单位:安阳师范学院计算机与信息工程学院;
基金项目:国家自然科学基金资助项目(60875081); 河南省教育厅高等学校青年骨干教师资助项目(2009GGJS-108)
摘    要:汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.

关 键 词:汉语分词  字标注  f阈值  模型大小  CRF 工具包  

Research on the Applicability of Parameter f in Character-based Tagging Approach of Chinese Word Segmentation
ZHAO Xiao-fan,HU Shun-yi,LIU Yong-ge. Research on the Applicability of Parameter f in Character-based Tagging Approach of Chinese Word Segmentation[J]. Journal of Zhengzhou University: Eng Sci, 2011, 0(4)
Authors:ZHAO Xiao-fan  HU Shun-yi  LIU Yong-ge
Affiliation:ZHAO Xiao-fan,HU Shun-yi,LIU Yong-ge(School of Computer and Information Engineering,Anyang Normal University,Anyang 455002,China)
Abstract:As the first and foremost part of Chinese information processing,the accuracy of Chinese word segmentation direct lead to magnified effect of the accuracy and processing speed in the following steps.In recent years,more and more researchers focus on how to improve the accuracy and processing speed of Chinese word segmentation.In this paper,the conditional random field model is used to segment Chinese word.Through quantitative analysis of the parameter f in CRF training process,a lot of experimental are done...
Keywords:Chinese word segmentation  character tagging  parameter f  model size  conditional random fields toolkit  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号