首页 | 本学科首页   官方微博 | 高级检索  
     

规则与统计相结合的分词一致性检验
引用本文:刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1817.
作者姓名:刘博  郑家恒  张虎
作者单位:山西大学计算机与信息技术学院,山西太原,030006
基金项目:国家自然科学基金 , 山西省自然科学基金
摘    要:建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法.与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量.

关 键 词:中文信息处理  大规模语料库  分词一致性检验  分词  语料库加工
文章编号:1000-7024(2008)07-1814-03
修稿时间:2007年5月21日

Consistency check of segment using combination of rule and statistics
LIU BO,ZHENG Jia-heng,ZHANG Hu.Consistency check of segment using combination of rule and statistics[J].Computer Engineering and Design,2008,29(7):1814-1817.
Authors:LIU BO  ZHENG Jia-heng  ZHANG Hu
Affiliation:LIU Bo,ZHENG Jia-heng,ZHANG Hu(School of Computer , Information Technology,Shanxi University,Taiyuan 030006,China)
Abstract:Building high quality large-scale corpus plays an important role in Chinese information processing.One of the Chinese corpus segment quality's important criterions is to guarantee consistency of segment for corpus.After analyzing the large-scale corpus,a com-bination of rule and statistics method is proposed.These methods are compared with existed segment methods,the experimental results indicate that the proposed method is feasible and effective,and the quality of corpus is improved.
Keywords:Chinese information processing  large-scale corpus  consistency check of segment  segment  corpus processing  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号