首页 | 本学科首页   官方微博 | 高级检索  
     

中文文本分类中的特征选择研究
引用本文:周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):18-24.
作者姓名:周茜  赵明生  扈旻
作者单位:清华大学电子工程系
摘    要:本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Na?ve Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果。其中,当用Na?ve Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右。

关 键 词:计算机应用  中文信息处理  文本分类  特征选择  类别区分词  
文章编号:1003-0077(2004)03-0017-07
修稿时间:2003年11月3日

Study on Feature Selection in Chinese Text Categorization
ZHOU Qian,ZHAO Ming sheng,HU min.Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(3):18-24.
Authors:ZHOU Qian  ZHAO Ming sheng  HU min
Affiliation:Department of Electronic Engineering , Tsinghua University
Abstract:This paper introduces and compares eight feature selection methods in text categorization. Among the eight methods , Multi-Class Odds Ratio (MC-OR) , a variant of Odds Ratio which is often used in binary classification , and a new feature selection method based on Class-Discriminating Words (CDW) are proposed. Combined with the classic VSM classifier based on cosine similarity and the Na?ve Bayes classifier , training and test are carried out on two text sets with different class distribution. As the results indicate , MC-OR and CDW gain the best selecting effect.
Keywords:computer application  Chinese information processing  text categorization  feature selection  class discriminating words
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号