基于字分类的中文分词的研究 Chinese Word Segmentation Research Based on Classification of Words期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于字分类的中文分词的研究

引用本文：	韩月阳,邓世昆,贾时银,李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,21(7).

作者姓名：	韩月阳邓世昆贾时银李远方

作者单位：	云南大学信息学院,云南,昆明,650091

基金项目：	云南省自然科学基金，云南大学研究生科研课题资助项目

摘要：	中文分词是白然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程.把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字.在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题.以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高.
关键词：	中文分词互信息 t-测试分类
Chinese Word Segmentation Research Based on Classification of Words

HAN Yue-yang,DENG Shi-kun,JIA Shi-yin,LI Yuan-fang.Chinese Word Segmentation Research Based on Classification of Words[J].Computer Technology and Development,2011,21(7).

Authors:	HAN Yue-yang DENG Shi-kun JIA Shi-yin LI Yuan-fang

Abstract:

Keywords:
本文献已被万方数据等数据库收录！