共查询到18条相似文献,搜索用时 468 毫秒
1.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。 相似文献
2.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。 相似文献
3.
空间离群点的检测算法 总被引:2,自引:0,他引:2
空间离群点是指与其邻居具有明显区别的属性值的空间对象.已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空问离群点.提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果.实验表明该算法具有较好的实用性. 相似文献
4.
5.
为了提高离群点挖掘的效率和准确度,在分析了传统离群点挖掘算法优、缺点的基础上,提出一种离群点检测算法.该算法利用Voronoi确定样点之间的邻近关系,通过参照邻域范围内其它样点的非空间属性值的信息熵作为离群因子,并根据离群因子标识出样点集中的离群点.以北京市大兴区土壤养分为例,实验结果表明,该检测算法能够高效,准确地检测出土壤样点中的离群点. 相似文献
6.
7.
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,然而KNN算法只以最近的第k个邻居的距离作为判断是否是离群点的标准有时也失准确性.给出了一种在大数据集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点.算法能提高离群点检测的准确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比. 相似文献
8.
一种基于加权KNN的大数据集下离群检测算法 总被引:2,自引:1,他引:2
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,
然而KNN算法只以最近的第k个部居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据
集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个
邻居的平均距离,离群点为那些与第k个部居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准
确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。 相似文献
9.
在传统的基于[K]近邻的算法中,需要为算法设置邻居参数[k]的值,只有具备相关的先验知识才能确定合适的参数值。为了减少参数对于离群点检测的影响,提出了一种无需参数的基于Delaunay三角剖分的离群点检测算法。Delaunay三角剖分是数值分析以及图形学中的重要基础理论,它的构建无需任何参数,在三角剖分图中的每个数据对象与它空间上相邻的点都存在边直接相连,因此可以形成一种有效的邻居关系。算法首先通过Delaunay三角剖分形成每个点的空间邻居集合,然后根据每个点与它们空间邻居之间的分布特征,计算它们的离群程度,根据离群程度的大小判断该点是否为离群点。通过实验与相关的算法比较,算法具有更好的效果。 相似文献
10.
基于局部信息熵的加权子空间离群点检测算法 总被引:7,自引:0,他引:7
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象,"维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效,针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD,通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念,采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点,算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的. 相似文献
11.
12.
针对两种基于KNN图孤立点检测方法:入度统计法(ODIN)和K最邻近(K-nearest Neighbor,RSS)算法的不足,提出了一种新的改进方法:两阶段孤立点检测方法,并进行了适当扩充使之适用于数据集中孤立点数目未知情况下的孤立点检测。算法应用于“小样本,高维度”的基因微阵列数据集进行样本孤立点检测取得了很好效果,证明了此方法的有效性。 相似文献
13.
目前无论是查找一般的离群点,还是空间离群点,都强调非空间属性的偏离,但在图像处理、基于位置的服务等许多应用领域,空间与非空间属性要综合考虑。为此,首先提出了一个综合考虑两者的空间离群点定义,然后提出了一种新的基于密度的空间离群点查找方法——基于密度的跳跃取样空间离群点查找算法DBSODLS。由于已有的基于密度的离群点查找方法对每一点都要求进行邻域查询计算,故查找效率低,而该算法由于可充分利用已知的邻居信息,即不必计算所有点的邻域,从而能快速找到空间离群点。分析与试验结果表明,该算法时间性能明显优于目前已有的基于密度的算法。 相似文献
14.
LOF算法是一个著名的局部离群点查找方法,该方法赋予了表征每一个空间点偏离程度的数值。但LOF算法存在效率低和性能差的问题,为此对该算法进行了以下两个方面的改进:第一,提出了降低该算法时间复杂度的两步改进方法,并对这两步改进方法的时间复杂度也进行详细分析,第二,使得该算法在查找局部离群点时,不仅考虑了空间属性,也考虑了非空间属性。另外还通过实验测试了LOF算法及其改进方法的时间效率,以及在模拟数据和真实数据情况下的查找离群点的效果。实验结果表明,改进方法具有更好的时间效率和性能。 相似文献
15.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。 相似文献
16.
On Detecting Spatial Outliers 总被引:1,自引:1,他引:0
The ever-increasing volume of spatial data has greatly challenged our ability to extract useful but implicit knowledge from
them. As an important branch of spatial data mining, spatial outlier detection aims to discover the objects whose non-spatial
attribute values are significantly different from the values of their spatial neighbors. These objects, called spatial outliers,
may reveal important phenomena in a number of applications including traffic control, satellite image analysis, weather forecast,
and medical diagnosis. Most of the existing spatial outlier detection algorithms mainly focus on identifying single attribute
outliers and could potentially misclassify normal objects as outliers when their neighborhoods contain real spatial outliers
with very large or small attribute values. In addition, many spatial applications contain multiple non-spatial attributes
which should be processed altogether to identify outliers. To address these two issues, we formulate the spatial outlier detection
problem in a general way, design two robust detection algorithms, one for single attribute and the other for multiple attributes,
and analyze their computational complexities. Experiments were conducted on a real-world data set, West Nile virus data, to
validate the effectiveness of the proposed algorithms.
相似文献
Feng Chen (Corresponding author)Email: |
17.
18.
局部离群点挖掘算法研究 总被引:14,自引:0,他引:14
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点. 相似文献