摘 要: | 针对在非平衡数据分类中倾向于少数类而导致分类效果降低的问题,提出了一种基于生成对抗网络的蒙特卡洛过采样算法。首先,利用生成对抗网络(GAN)生成少数类数据的概率密度函数,通过少数类数据的概率密度值确定少数类数据的过采样权重;其次,为了保证生成数据的多样性,采用蒙特卡洛算法对少数类数据进行过采样;同时,为了避免与多数类产生交叉与重叠,通过高斯分布的3σ法则对进入到多数类区间3σ内的少数类数据进行翻转,使数据集达到平衡。最后,从UCI与KEEL数据库中选取7组数据集进行算例实验,将决策树分类器作为基分类器对数据进行分类。实验结果表明所提算法是有效的。
|