基于全息图平稳分布因子的离群点检测算法 |
| |
引用本文: | 张忠平,郭鑫,张玉停,张睿博.基于全息图平稳分布因子的离群点检测算法[J].计算机应用,2023(6):1705-1712. |
| |
作者姓名: | 张忠平 郭鑫 张玉停 张睿博 |
| |
作者单位: | 1. 燕山大学信息科学与工程学院;2. 河北省计算机虚拟技术与系统集成重点实验室(燕山大学);3. 河北省软件工程重点实验室(燕山大学);4. 武汉理工大学国际教育学院 |
| |
基金项目: | 国家自然科学基金资助项目(61972334)~~; |
| |
摘 要: | 使用传统的基于图的方法进行离群点检测构造转移概率矩阵需要使用数据的整体分布,容易忽略数据的局部信息,导致检测精度低,而使用数据的局部信息可能导致“悬空链接”的问题。针对这些问题,提出一个基于全息图平稳分布因子的离群点检测算法(HSDFOD)。首先,使用相似度矩阵自适应地获取每个数据点的邻居集合构造一个局部信息图;然后,引入最小生成树构造一个全局信息图;最后,利用局部信息图和全局信息图融合为一个全息图构造转移概率矩阵进行马尔可夫随机游走,并通过生成的平稳分布检测离群点。在人工数据集A1~A4上,HSDFOD的精确率均高于SOD(Outlier Detection in axis-parallel Subspaces of high dimensional data)、SUOD(accelerating large-Scale Unsupervised heterogeneous Outlier Detection)、IForest (Isolation Forest)和HBOS (Histogram-Based Outlier Score);曲线下面积(AUC)整体上也优于这4个对比算法...
|
关 键 词: | 离群点 全息图 转移概率矩阵 马尔可夫随机游走 平稳分布因子 |
|