基于二次随机森林的不平衡数据分类算法 |
| |
作者单位: | ;1.华北计算技术研究所;2.太极计算机股份有限公司 |
| |
摘 要: | 不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。
|
关 键 词: | 模式识别 不平衡数据 随机森林 模糊边界 |
An new Algorithm for Imbalanced Data Based on Twice Random Froest |
| |
Abstract: | |
| |
Keywords: | |
|
|