首页 | 本学科首页   官方微博 | 高级检索  
     

一种新的基于信息熵的属性选择算法
引用本文:王广涛,宋擒豹,车蕊.一种新的基于信息熵的属性选择算法[J].计算机研究与发展,2009,46(Z2).
作者姓名:王广涛  宋擒豹  车蕊
作者单位:两安交通大学计算机科学与技术系,西安,710049
基金项目:国家"八六三"高技术研究发展计划基金项目,国家自然科学基金项目 
摘    要:属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属性子集对目标概念的描述能力,利用后向删除搜索策略进行属性选择.同时,根据不一致实例和关联规则中提升度的概念,给出噪声数据的定义和识别方法.该算法和典型的属性选择算法在10个UCI标准数据集上的对比实验结果表明,提出的算法在减少属性数量的同时将C4.5和NaiveBayes的平均分类精度分别提高了2.77%和3.42%.

关 键 词:属性选择  属性相关  属性交互作用  条件熵

A New Entropy-Based Feature Subset Selection Algorithm
Wang Guangtao,Song Qinbao,Che Rui.A New Entropy-Based Feature Subset Selection Algorithm[J].Journal of Computer Research and Development,2009,46(Z2).
Authors:Wang Guangtao  Song Qinbao  Che Rui
Abstract:Feature subset selection is a quite hot topic in the classifier research,and a large number of algorithms have already been proposed.However,none of them can handle both the feature interaction and the noise.In this paper,a new entropy-based feature subset algorithm is presented.In the proposed algorithm,conditional entropy is adopted to measure feature subset's discriminating ability for differentiating class labels.Backward elimination search is used to find the best subset.Meanwhile,the proposed algorithm is able to handle noise data.Experimental results show that the algorithm can address the feature interaction and further improve the performance of C4.5 and NaiveBayes.
Keywords:feature subset selection  feature relevance  feature interaction  conditional entropy
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号