首页 | 本学科首页   官方微博 | 高级检索  
     

针对不平衡数据集的Bagging改进算法
引用本文:李明方,张化祥.针对不平衡数据集的Bagging改进算法[J].计算机工程与应用,2010,46(30):40-42.
作者姓名:李明方  张化祥
作者单位:山东师范大学 信息科学与工程学院,济南 250014
基金项目:山东省高新技术自主创新工程专项计划,山东省自然科学基金,山东省科技攻关计划,山东省电子发展基金
摘    要:传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例的权重进行调整。混淆矩阵和ROC曲线表明改进算法达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。

关 键 词:不平衡类  少类样本合成过采样技术(SMOTE)  Bagging算法  权重  受试者工作特征曲线(ROC)  
收稿时间:2009-4-3
修稿时间:2009-6-5  

Improving Bagging algorithm for imbalance data
LI Ming-fang,ZHANG Hua-xiang.Improving Bagging algorithm for imbalance data[J].Computer Engineering and Applications,2010,46(30):40-42.
Authors:LI Ming-fang  ZHANG Hua-xiang
Affiliation:College of Information Science and Engineering,Shandong Normal University,Jinan 250014,China
Abstract:The traditional Bagging method can achieve a high accuracy for imbalance data,but gets low accuracy of the minority class samples.In order to improve the accuracy of the minority class samples with Bagging algorithm,the paper proposes a two-step approach.Firstly,SMOTE algorithm is used to increase the number of the minority class samples and then adjusts the weight for each instance in Bagging according to its class value.Results of the confusing matrix and the ROC show the approach improves not only the classification performance of data as a whole but also that of the minority part.
Keywords:imbalance dataset  Synthetic Minority Over-sampling Technique(SMOTE)  Bagging  weights  Receiver Operating Characteristic(ROC) curve  
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号