首页 | 本学科首页   官方微博 | 高级检索  
     

改进欠抽样方法及其在非平衡数据集分类中的应用
引用本文:牛壮,李凤莲,张雪英,樊宇宙,魏鑫. 改进欠抽样方法及其在非平衡数据集分类中的应用[J]. 计算机工程, 2019, 45(6): 218-224
作者姓名:牛壮  李凤莲  张雪英  樊宇宙  魏鑫
作者单位:太原理工大学信息与计算机学院,山西晋中,030600;太原理工大学信息与计算机学院,山西晋中,030600;太原理工大学信息与计算机学院,山西晋中,030600;太原理工大学信息与计算机学院,山西晋中,030600;太原理工大学信息与计算机学院,山西晋中,030600
基金项目:山西省自然科学基金;山西省重点研发计划;山西省科技重大专项
摘    要:欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。

关 键 词:非平衡数据集  聚类算法  欠抽样  去冗余  多决策树预测模型

Improved Under-sampling Method and Its Application in the Classification of Imbalanced Data Sets
NIU Zhuang,LI Fenglian,ZHANG Xueying,FAN Yuzhou,WEI Xin. Improved Under-sampling Method and Its Application in the Classification of Imbalanced Data Sets[J]. Computer Engineering, 2019, 45(6): 218-224
Authors:NIU Zhuang  LI Fenglian  ZHANG Xueying  FAN Yuzhou  WEI Xin
Affiliation:(College of Information and Computer,Taiyuan University of Technology,Jinzhong,Shanxi 030600,China)
Abstract:NIU Zhuang;LI Fenglian;ZHANG Xueying;FAN Yuzhou;WEI Xin(College of Information and Computer,Taiyuan University of Technology,Jinzhong,Shanxi 030600,China)
Keywords:imbalanced data sets  clustering algorithm  under-sampling  redundancy removal  multi-decision tree prediction model
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号