基于期望核密度离群因子的离群点检测算法 |
| |
引用本文: | 张忠平,孙光旭,姚春辰,刘硕,齐文旭.基于期望核密度离群因子的离群点检测算法[J].高技术通讯,2024(2):187-198. |
| |
作者姓名: | 张忠平 孙光旭 姚春辰 刘硕 齐文旭 |
| |
作者单位: | 1. 燕山大学信息科学与工程学院;2. 河北省计算机虚拟技术与系统集成重点实验室;3. 信息工程大学信息系统工程学院 |
| |
基金项目: | 国家自然科学基金(61972334); |
| |
摘 要: | 针对基于密度的离群点检测方法在不同分布的数据集上检测精度低的问题,提出了一种基于期望核密度离群因子的离群点检测算法。首先,引入k近邻和反向k近邻扩展邻域空间(ENS)代替传统的k邻域范围,更加全面地考虑数据对象的邻域信息;其次,在传统核密度估计(KDE)方法的基础上引入多元高斯函数,在扩展邻域空间内估计数据对象的密度,同时借鉴自适应核带宽的思想,更好地适应不同数据集的数据分布;然后,给出期望距离的概念,进一步区分局部离群点和位于低密度区域的正常点;最后,定义了期望核密度离群因子刻画数据对象离群程度。在人工数据集和真实数据集上对所提算法进行实验验证,并与部分传统算法进行对比,验证了所提算法的有效性。
|
关 键 词: | 数据挖掘 离群点 核密度估计(KDE) 期望距离 期望核密度离群因子 |
|
|