首页 | 本学科首页   官方微博 | 高级检索  
     

不平衡多分类问题的连续AdaBoost算法研究
引用本文:付忠良.不平衡多分类问题的连续AdaBoost算法研究[J].计算机研究与发展,2011,48(12).
作者姓名:付忠良
作者单位:中国科学院成都计算机应用研究所 成都610041
基金项目:国家“八六三”高技术研究发展计划基金项目(2008AA01Z402); 四川省科技支撑计划基金项目(2008SZ0100,2009SZ0214)
摘    要:现有AdaBoost系列算法一般没有考虑类的先验分布.针对该问题,基于最小化训练错误率,通过把符号函数表示的训练错误率的极值问题转变成一种指数函数的极值问题,提出了不平衡分类问题连续AdaBoost算法,给出了该算法的近似误差估计.基于同样的方法,对二分类问题连续AdaBoost算法的合理性给出了一种全新的解释和证明,并推广到多分类问题,得到了多分类问题连续AdaBoost算法,其具有与二分类连续AdaBoost算法完全类似的算法流程.经分析该算法与Bayes统计推断方法等价,并且其训练错误率随着训练的分类器个数增加而减小.理论分析和基于UCI数据集的实验结果表明了不平衡多分类算法的有效性.在连续AdaBoost算法中,不平衡分类问题常被转换成平衡分类问题来处理,但当先验分布极度不平衡时,使用提出的不平衡分类问题连续AdaBoost算法比一般连续AdaBoost算法有更好效果.

关 键 词:不平衡分类  连续AdaBoost  代价敏感学习  多分类  先验分布  

Real AdaBoost Algorithm for Multi-Class and Imbalanced Classification Problems
Fu Zhongliang.Real AdaBoost Algorithm for Multi-Class and Imbalanced Classification Problems[J].Journal of Computer Research and Development,2011,48(12).
Authors:Fu Zhongliang
Affiliation:Fu Zhongliang (Chengdu Institute of Computer Application,Chinese Academy of Sciences,Chengdu 610041)
Abstract:The current AdaBoost algorithms often do not consider the priori distribution among different classes. To solve this problem, by transforming the expression of training error from sign function to exponential function, a real AdaBoost algorithm for imbalanced classification problem is proposed to minimize the training error rate, and its error estimation is also given. By the same way, the real AdaBoost algorithm for two-class classification problem could be explained and proved successfully by a new mechan...
Keywords:imbalanced classification  real AdaBoost  cost-sensitive learning  multi-class classification  priori distribution  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号