首页 | 本学科首页   官方微博 | 高级检索  
     

融合级联上采样与下采样的改进随机森林不平衡数据分类算法
引用本文:郑建华,李小敏,刘双印,李迪.融合级联上采样与下采样的改进随机森林不平衡数据分类算法[J].计算机科学,2021,48(7):145-154.
作者姓名:郑建华  李小敏  刘双印  李迪
作者单位:仲恺农业工程学院信息科学与技术学院 广州 510225;广东省高校智慧农业工程技术研究中心 广州 510225;仲恺农业工程学院机电工程学院 广州 510225;华南理工大学机械与汽车工程学院 广州 510640
摘    要:数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题.为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法.该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样.首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法.此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一.进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法.实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能.

关 键 词:级联上采样  随机森林  不平衡数据  分类算法

Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling
ZHENG Jian-hua,LI Xiao-min,LIU Shuang-yin,LI Di.Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling[J].Computer Science,2021,48(7):145-154.
Authors:ZHENG Jian-hua  LI Xiao-min  LIU Shuang-yin  LI Di
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号