首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于过抽样技术的非平衡数据集分类方法
引用本文:王春玉,苏宏业,渠瑜,褚健.一种基于过抽样技术的非平衡数据集分类方法[J].计算机工程与应用,2011,47(1):139-143.
作者姓名:王春玉  苏宏业  渠瑜  褚健
作者单位:浙江大学 智能系统与控制研究所 工业控制技术国家重点实验室,杭州 310027
基金项目:国家高技术研究发展计划(863)No.2008AA042902,No.2009AA04Z162; 高等学校学科创新引智(111)计划资助No.B07031~~
摘    要:非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。

关 键 词:数据挖掘  非平衡数据集  Boosting  错分样本  支持向量机
收稿时间:2010-8-9
修稿时间:2010-10-14  

Imbalanced data sets classification method based on over-sampling technique
WANG Chunyu,SU Hongye,QU Yu,CHU Jian.Imbalanced data sets classification method based on over-sampling technique[J].Computer Engineering and Applications,2011,47(1):139-143.
Authors:WANG Chunyu  SU Hongye  QU Yu  CHU Jian
Affiliation:State Key Lab of Industrial Control Technology,Institute of Cyber-Systems & Control,Zhejiang University,Hangzhou 310027,China
Abstract:Classification of data with imbalanced class distribution is a research focus on machine learning.In order to resolve the imbalanced problems,especially those of the poor predictive accuracy over the minority class,this paper presents an improved approach,AdaBoost-SVM-OBMS,which is based on a combination of Boosting,an ensemble-based learning algorithm,and an improved over-sampling method based on misclassified samples.In this approach,using support vector machine as base classifier,the misclassified sample...
Keywords:data ming  imbalanced data sets  Boosting  misclassified samples  support vector machine  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号