首页 | 本学科首页   官方微博 | 高级检索  
     

中文文本分类中特征选择方法的研究
引用本文:宁慧,吕志龙.中文文本分类中特征选择方法的研究[J].数字社区&智能家居,2007(21).
作者姓名:宁慧  吕志龙
作者单位:哈尔滨工程大学,计算机科学与技术学院,黑龙江,哈尔滨,150001 哈尔滨工程大学,计算机科学与技术学院,黑龙江,哈尔滨,150001
基金项目:国家自然科学基金资助项目(60603092)
摘    要:本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法.针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF-MI,DF-IG两种组合式特征选择方法-同时针对DF的特点提出了新的特征选取方法DFR-用KNN分类器试验了几种组合方法和DFR方法-实验结果表明DFR较DF-MI、DF-IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高.

关 键 词:文本分类  特征选取  KNN  特征组合

A Study on Feature Selection in Chinese Text Categorization
NING Hui,LV Zhi-long.A Study on Feature Selection in Chinese Text Categorization[J].Digital Community & Smart Home,2007(21).
Authors:NING Hui  LV Zhi-long
Abstract:This paper is a study of feature selection methods in text categorization. Seven methods ere evaluated, including document frequency (DF), information gain (IG), mutual information (MI), x2-test(CH I), Expected Cross Entropy(CE), Weight of Evidence for Text and Odds Ratio. DF relies on the high frequency word and MI, IG and CHI rely on the low frequency word. So feature selection method of a combined type is used and suppress effectively the lack of the high or low frequency word. Meanwhile we introduce a new feature selection method DFR. A furthermore experiment proved that the combined feature selection method is effective.
Keywords:text categorization  feature selection  KNN  feature combination
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号