首页 | 本学科首页   官方微博 | 高级检索  
     

用于不均衡数据集分类的KNN算法
引用本文:孙晓燕,张化祥,计华.用于不均衡数据集分类的KNN算法[J].计算机工程与应用,2011,47(28):143-145.
作者姓名:孙晓燕  张化祥  计华
作者单位:山东师范大学 信息科学与工程学院,济南 250014
基金项目:山东省自然科学基金(No.ZR2010FM021); 山东省科技研究计划项目(No.2007ZZ17,No.2008GG10001015,No.2008B0026); 山东省教育厅科研项目(No.J09LG02)
摘    要:针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。

关 键 词:不均衡数据集  K最近邻居(KNN)算法  过抽样  交叉算子  
修稿时间: 

Improved KNN algorithm in classification of imbalanced data sets
SUN Xiaoyan,ZHANG Huaxiang,JI Hua.Improved KNN algorithm in classification of imbalanced data sets[J].Computer Engineering and Applications,2011,47(28):143-145.
Authors:SUN Xiaoyan  ZHANG Huaxiang  JI Hua
Affiliation:Department of Information Science and Engineering,Shandong Normal University,Jinan 250014,China
Abstract:When the KNN algorithm is used to deal with imbalanced data sets,it has poor performance in the minority class prediction accuracy.An improved algorithm(G-KNN) is proposed to solve this problem.For the minority class samples, this algorithm uses the crossover operator and mutation operator to generate some of the new minority class samples.One new sample is considered valid,only if its Euclidean distance to parent is less than the maximum distance between parents. Then this valid sample is used to product t...
Keywords:imbalanced data sets  K-Nearest Neighbo(rKNN)algorithm  over-sampling  crossover  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号