首页 | 本学科首页   官方微博 | 高级检索  
     

用于不均衡数据集的挖掘方法
引用本文:赵凤英,王崇骏,陈世福. 用于不均衡数据集的挖掘方法[J]. 计算机科学, 2007, 34(9): 139-141
作者姓名:赵凤英  王崇骏  陈世福
作者单位:南京大学计算机软件新技术国家重点实验室,南京,210093;南京大学计算机科学与技术系,南京,210093
基金项目:国家自然科学基金 , 江苏省自然科学基金 , 江苏省高技术研究发展计划项目
摘    要:传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。

关 键 词:不均衡数据集  过取样  欠取样  代价敏感学习

Data Mining on Imbalanced Data Sets
ZHAO Feng-Ying,WANG Chong-Jun,CHEN Shi-Fu. Data Mining on Imbalanced Data Sets[J]. Computer Science, 2007, 34(9): 139-141
Authors:ZHAO Feng-Ying  WANG Chong-Jun  CHEN Shi-Fu
Affiliation:1.National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093; 2.Department of Computer Science and Technology, Nanjing University, Nanjing 210093
Abstract:The majority of machine learning algorithms previously designed usually assume that their training sets are well-balanced,but data in real-world is usually imbalanced.The tradition machine learning algorithms on balanced data sets have bad performance when they learn from imbalaneed data sets.Thus,machine learning on imbalanced data sets becomes an urgent problem.In this paper,a simple review of the related work is informed.
Keywords:Imbalance data set  Over-sampling  Under-sampling Cost-sensitive learning
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号