首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于欠采样的不平衡数据分类算法
引用本文:程险峰,李军,李雄飞. 一种基于欠采样的不平衡数据分类算法[J]. 计算机工程, 2011, 37(13): 147-149. DOI: 10.3969/j.issn.1000-3428.2011.13.047
作者姓名:程险峰  李军  李雄飞
作者单位:1. 长春市公安局交通警察支队,长春,130011
2. 长春理工大学数学系,长春,130022;吉林大学符号计算与知识工程教育部重点实验室,长春,130012
3. 吉林大学符号计算与知识工程教育部重点实验室,长春,130012
基金项目:国家科技支撑计划基金资助项目,公安部重点科研基金资助项目(B类),吉林省科技发展计划基金资助项目
摘    要:针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。

关 键 词:机器学习  分类算法  不平衡数据  欠采样  邻域
收稿时间:2011-02-25

Imbalanced Data Classification Algorithm Based on Undersampling
CHENG Xian-feng,LI Jun,LI Xiong-fei. Imbalanced Data Classification Algorithm Based on Undersampling[J]. Computer Engineering, 2011, 37(13): 147-149. DOI: 10.3969/j.issn.1000-3428.2011.13.047
Authors:CHENG Xian-feng  LI Jun  LI Xiong-fei
Affiliation:1.Traffic Police Detachment,Changchun Public Security Bureau,Changchun 130011,China;2.Dept.of Mathematics,Changchun University of Science and Technology,Changchun 130022,China;3.Key Laboratory of Symbolic Computation and Knowledge Engineering for Ministry of Education,Jilin University,Changchun 130012,China)
Abstract:Imbalanced Data Learning(IDL) problem is one of the research issues in machine learning.This paper presents a classification algorithm based on undersampling,which algorithm undersamples the majority examples,and retains the majority examples near the classify border.With the AUC as the optimization objectives.It chooses the most appropriate domain radius to balance the data set,and trains the Bayesian classifier by the use of the examples after undersampling.Using AUC as a measure of classifier performance evaluation,the experiments on simulation data and UCI data sets show that undersampling is effective
Keywords:machine learning  classification algorithm  imbalanced data  undersampling  neighborhood
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号