基于聚类欠采样的集成分类算法 |
| |
作者姓名: | 周传华 朱俊杰 徐文倩 邓佳佳 |
| |
作者单位: | 安徽工业大学管理科学与工程学院,安徽 马鞍山 243000;中国科学技术大学计算机科学与技术学院,安徽 合肥 230000;安徽工业大学管理科学与工程学院,安徽 马鞍山 243000 |
| |
基金项目: | 国家自然科学基金资助项目(71772002, 61702006); 复杂系统多学科管理与控制安徽省普通高校重点实验室资助项目(CS2020-04) |
| |
摘 要: | 不平衡数据常出现在各应用领域中,传统分类器往往关注于多数类样本而导致样本分类效果不理想。针对此问题,提出一种基于聚类欠采样的集成分类算法(ClusterUndersampling-AdaCost, CU-AdaCost)。该算法通过计算样本间维度加权后的欧氏距离得出各簇的样本中心位置,根据簇心邻域范围选择出信息特征较强的多数类样本,形成新的训练集;并将训练集放在引入代价敏感调整函数的集成算法中,使得模型更加关注于少数类别。通过对6组UCI数据集进行对比实验,结果表明,该算法在欠采样过程中抽取的样本具有较强的代表性,能够有效提高模型对少数类别的分类性能。
|
关 键 词: | 不平衡数据 聚类 欠采样 代价敏感 |
收稿时间: | 2021-12-13 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机与现代化》浏览原始摘要信息 |
|
点击此处可从《计算机与现代化》下载全文 |
|