面向长尾分布数据的在线流特征选择 |
| |
引用本文: | 范凯钧,林耀进,张智慧,毛煜,王晨曦.面向长尾分布数据的在线流特征选择[J].昆明理工大学学报(理工版),2023(1):77-88. |
| |
作者姓名: | 范凯钧 林耀进 张智慧 毛煜 王晨曦 |
| |
作者单位: | 1. 闽南师范大学计算机学院;2. 数据科学与智能应用福建省高等学校重点实验室闽南师范大学 |
| |
基金项目: | 国家自然科学基金面上项目(62076116);;福建省自然科学基金重点项目(2021J02049); |
| |
摘 要: | 在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的不确定性.针对上述问题,文中提出基于邻域粗糙集的长尾分布数据在线流特征选择算法.借助邻域粗糙集模型,并考虑邻域内样本间的关系后,定义了自适应邻域关系,设计基于稀有类样本重要性的依赖度计算公式.同时,利用层次结构降低类别不平衡性,提出在线冗余度分析和在线重要度分析两种在线特征评价指标,用于选出具有高可分离性和强区分性的特征子集.实验结果表明所提算法优于其它先进算法.
|
关 键 词: | 特征选择 长尾分布数据集 在线流特征选择 层次分类 邻域粗糙集 |
|
|