首页 | 本学科首页   官方微博 | 高级检索  
     

基于字分类的中文分词的研究
引用本文:韩月阳,邓世昆,贾时银,李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,21(7).
作者姓名:韩月阳  邓世昆  贾时银  李远方
作者单位:云南大学信息学院,云南,昆明,650091
基金项目:云南省自然科学基金,云南大学研究生科研课题资助项目
摘    要:中文分词是白然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程.把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字.在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题.以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高.

关 键 词:中文分词  互信息  t-测试  分类

Chinese Word Segmentation Research Based on Classification of Words
HAN Yue-yang,DENG Shi-kun,JIA Shi-yin,LI Yuan-fang.Chinese Word Segmentation Research Based on Classification of Words[J].Computer Technology and Development,2011,21(7).
Authors:HAN Yue-yang  DENG Shi-kun  JIA Shi-yin  LI Yuan-fang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号