首页 | 本学科首页   官方微博 | 高级检索  
     

两层聚类的类别不平衡数据挖掘算法
引用本文:胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275.
作者姓名:胡小生  张润晶  钟勇
作者单位:佛山科学技术学院电子与信息工程学院 佛山528000;佛山科学技术学院信息与教育技术中心 佛山528000;佛山科学技术学院电子与信息工程学院 佛山528000
基金项目:本文受佛山市科技发展专项资金项目(2011AA100061),佛山市产学研专项资金项目(2012HC100272),佛山市教育局智能教育评价指标体系研究项目(DX20120220)资助
摘    要:类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。

关 键 词:数据挖掘  分类  不平衡数据  K均值聚类  中图法分类号TP391文献标识码A
收稿时间:2013/1/27 0:00:00
修稿时间:4/3/2013 12:00:00 AM

Two-tier Clustering for Mining Imbalanced Datasets
HU Xiao-sheng,ZHANG Run-jing and ZHONG Yong.Two-tier Clustering for Mining Imbalanced Datasets[J].Computer Science,2013,40(11):271-275.
Authors:HU Xiao-sheng  ZHANG Run-jing and ZHONG Yong
Affiliation:College of Electronic and Information Engineering,Foshan University,Foshan 528000,China;Information and Education Technology Center,Foshan University,Foshan 528000,China;College of Electronic and Information Engineering,Foshan University,Foshan 528000,China
Abstract:
Keywords:Data mining  Classification  Imbalanced data  K-means clustering
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号