首页 | 本学科首页   官方微博 | 高级检索  
     

基于类别分布的特征选择框架
引用本文:靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9).
作者姓名:靖红芳  王斌  杨雅辉  徐燕
作者单位:1. 中国科学院计算技术研究所,北京,100190;中国科学院研究生院,北京,100049
2. 中国科学院计算技术研究所,北京,100190
3. 北京大学软件与微电子学院,北京,102600
4. 北京语言大学网络信息与教育技术中心,北京,100083
基金项目:国家"九七三"重点基础研究发展计划基金项目,国家自然科学基金项目,国家"八六三"高技术研究发展计划基金项目 
摘    要:目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS.

关 键 词:特征选择  非平衡语料  特征降维  文本分类  数据挖掘

Category Distribution-Based Feature Selection Framework
Jing Hongfang,Wang Bin,YangYahui,Xu Yan.Category Distribution-Based Feature Selection Framework[J].Journal of Computer Research and Development,2009,46(9).
Authors:Jing Hongfang  Wang Bin  YangYahui  Xu Yan
Affiliation:Institute of Computing Technology;Chinese Academy of Sciences;Beijing 100190;Graduate University of Chinese Academy of Sciences;Beijing 100049;School of Software & Microelectronics;Peking University;Beijing 102600;Center of Network Information and Education Technology;Beijing Language and Culture University;Beijing 100083
Abstract:Text categorization is an important technique in data mining domain.Extremely high dimension of features makes text categorization processing complex and expensive,and thus effective dimension reduction methods are extraordinarily desired.Feature selection is widely used to reduce dimension.Many feature selection methods have been proposed in recent years.But to the authors' best knowledge,there is no method that performs very well on unbalanced datasets.This paper proposes a feature selection framework bas...
Keywords:feature selection  unbalanced data set  feature deduction  text categorization  data mining  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号