首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征选择的过抽样算法的研究
引用本文:陆慧娟,张金伟,马小平,杨小兵.基于特征选择的过抽样算法的研究[J].电信科学,2012,28(1):87-91.
作者姓名:陆慧娟  张金伟  马小平  杨小兵
作者单位:1. 中国矿业大学信息与电气工程学院 徐州221008;中国计量学院信息工程学院 杭州310018
2. 中国计量学院信息工程学院 杭州310018
3. 中国矿业大学信息与电气工程学院 徐州221008
基金项目:国家自然科学基金资助项目,浙江省自然科学基金资助项目
摘    要:为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.

关 键 词:不平衡数据集  特征选择  过抽样  遗传算法

Study of Over-Sampling Method Based on Feature Selection
Lu Huijuan , Zhang Jinwei , Ma Xiaoping , Yang Xiaobing.Study of Over-Sampling Method Based on Feature Selection[J].Telecommunications Science,2012,28(1):87-91.
Authors:Lu Huijuan  Zhang Jinwei  Ma Xiaoping  Yang Xiaobing
Affiliation:1.School of Information and Electrical Engineering,China University of Mining & Technology,Xuzhou 221008,China; 2.College of Information Engineering,China Jiliang University,Hangzhou 310018,China)
Abstract:To significantly improve the classification performance of the minority class,we present an over-sampling method based on feature selection.Firstly,feature selection is performed on the training data set in order to select a set of key columns.Then minority class samples are produced using selected key columns,and each sample consists of two kinds of features.One type of features is characteristic value that is corresponding to the selected key columns,the others is generated according to the principle of SMOTE.Comparing to SMOTE algorithm,results show that the new method performs better than SMOTE,and it can effectively reduce the imbalance of data and improve the classification accuracy of the minority class.
Keywords:imbalanced data set  feature selection  over sampling  genetic algorithm
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号