首页 | 本学科首页   官方微博 | 高级检索  
     

中文文本分类中的特征选择算法研究
引用本文:胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46.
作者姓名:胡佳妮  徐蔚然  郭军  邓伟洪
作者单位:北京邮电大学,北京,100876
摘    要:比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。

关 键 词:文本分类  特征选择  评价函数
文章编号:1005-8788(2005)03-0044-03
修稿时间:2004年10月15

Study on feature selection methods in Chinese text categorization
HU Jia-ni,XU Wei-ran,GUO Jun,DENG Wei-hong.Study on feature selection methods in Chinese text categorization[J].Study on Optical Communications,2005(3):44-46.
Authors:HU Jia-ni  XU Wei-ran  GUO Jun  DENG Wei-hong
Abstract:This paper presents a study of seven feature selection methods that are commonly used in text categorization: document frequency, information gain, mutual information, X\+2 statistic, expected cross entropy, weight of evidence for text, and odds ratio. In order to evaluate these methods, experiments have been carried out combined with Chinese texts set in national 863 project and Rocchio classifier. The results of measured indicate that odds ratio method is superior to other methods.
Keywords:text categorization  feature selection  evaluation function
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号