首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征间关系合成少数类样本的过采样算法
引用本文:雷明珠,王浩,贾蓉,白琳,潘晓英.基于特征间关系合成少数类样本的过采样算法[J].计算机应用,2024(5):1428-1436.
作者姓名:雷明珠  王浩  贾蓉  白琳  潘晓英
作者单位:1. 西安邮电大学计算机学院;2. 陕西省网络数据分析与智能处理重点实验室
基金项目:陕西省重点研发计划项目(2023-YBSF-476)~~;
摘    要:数据不平衡的现象在现实生活中非常普遍。为了提高整体分类精度,分类器有时会以错分少数类为代价。但在现实生活中,对少数类进行错误分类的后果非常严重。考虑到传统重采样算法容易忽略数据的空间分布和少数类样本特征之间的关系,提出一种基于特征关系的采样算法(SABRF)生成新的样本集。SABRF通过帕累托多目标特征选择保留不平衡数据集的关键区分特征,同时通过极端梯度提升(XGBoost)回归模型捕获少数类样本关键特征之间的关系。此外,还提出一个新的样本选择策略衡量新生成样本的质量。使用6个公开的UCI数据集和1个真实的骨科术后血栓数据集进行实验,结果表明,SABRF在受试者工作特征曲线下面积(AUC)、F1分数(F1_score)和几何平均值(G_mean)上均有较好的表现;此外,对使用基于多指标评价的样本选择策略挑选出的新样本进行分类,不平衡数据的分类结果也最好,验证了样本选择策略的有效性。

关 键 词:不平衡数据  过采样  特征选择  样本质量评估  极端梯度提升回归  帕累托前沿
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号