共查询到19条相似文献,搜索用时 78 毫秒
1.
GridOF:面向大规模数据集的高效离群点检测算法 总被引:12,自引:3,他引:12
作为数据库知识发现研究的重要技术手段,现有离群点检测算法在运用于大型数据集时其时间与空间效率均无法令人满意.通过对数据集中离群点分布特征的分析,在数据空间网格划分的基础上,研究数据超方格层次上的密度近似计算与稠密数据主体滤除策略.给出通过简单的修正近似计算取代繁复的点对点密度函数值计算的方法.基于上述思想构造的离群点检测算法GlidOF在保持足够检测精度的同时显著降低了时空复杂度,运用于大规模数据集离群点检测具有良好的适用性和有效性. 相似文献
2.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。 相似文献
3.
基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。 相似文献
4.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。 相似文献
5.
随着移动网络、智能终端的迅猛发展,基于位置的服务LBS(Location-based Service)越来越热门,因此基站位置信息的正确与否成为关注的重点.针对基站地理位置存在部分错误这一现象,提出了基于网格概率的离群点检测算法来核查错误的基站.首先,根据基站分布的规则将数据空间分成若干网格单元;其次,根据用户轨迹签到信息关联出其在动态时间范围内经过的基站序列,将基站序列映射到网格中,计算出临近网格单元集合;最后,根据基站分布特点对网格单元内目标基站的临近基站求隶属概率,筛选出离群点,即错误的基站.实验表明,该算法的时间复杂度低且核实准确率较高. 相似文献
6.
提出了一种基于网格技术的高维大数据集离群点挖掘算法(OMAGT)。该算法针对高维大数据集的分布特性,首先采用基于网格技术的方法寻找出聚类区域,并删除聚类区域内不可能成为离群点的聚类点集,然后运用局部离群因子(LOF)算法对剩下的点集进行离群点挖掘。OMAGT算法较好地实现了聚类信息的动态释放,将保留的离群点挖掘信息控制在一定的内存容量范围内,提高了算法的时间效率和空间效率。理论分析与实验结果表明OMAGT算法是可行和有效的。 相似文献
7.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。 相似文献
8.
无线网络动态数据完整性呈非线性分布,数据结构较为复杂,完整性检测效果较差.为此,设计基于离群点检测算法的无线网络动态数据完整性检测方法.设计离群点检测算法动态数据生成层的数据组结构,据此得到机器计量数据学习离群点,根据数据学习离群点位置,计算动态数据完整性检测指标.构建动态数据完整性检测算法,完成无线网络动态数据完整性... 相似文献
9.
10.
《计算机应用与软件》2018,(3)
DV-Hop算法在无线传感器网络节点分布不均匀时定位误差较大。针对上述问题,利用离群点检测算法提高计算未知节点坐标的精度。在采用多边测量算法估计未知节点的坐标位置时用离群点检测算法LOF对未知节点的估计坐标进行分析和筛选,最终确定未知节点位置。仿真实验表明,该方法能提高节点的定位精度,减小定位误差。 相似文献
11.
针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN (Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。 相似文献
12.
为了解决数据集更新时孤立点增量发现问题,提出一种基于密度近邻的增量式孤立点发现算法.当数据集更新时,该算法在确定出受影响的对象后,根据对象和其近邻间k-密度变化,建立对象的密度近邻序列.然后依据对象的密度近邻序列代价和其k-距离邻域的平均密度近邻序列代价,计算出受影响对象的增量异常因子(IOF)来表征对象的孤立程度,从而提高增量孤立点发现的效果.此外,由于只需重新计算这些受影响对象的IOF值,该算法还提高孤立点发现的速度.实验表明,该算法不仅在孤立点增量发现的效果上高于以往算法且减少算法的运行时间. 相似文献
13.
14.
在对入侵检测技术研究的基础上,分析了数据挖掘技术在入侵检测中应用的可行性.并且建立了一种基于数据挖掘的IDS模型.经过分析入侵检测中应用的几种异常点检测算法,归纳和总结了它们的特点,为其他研究者提出新的算法提供了依据. 相似文献
15.
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,然而KNN算法只以最近的第k个邻居的距离作为判断是否是离群点的标准有时也失准确性.给出了一种在大数据集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点.算法能提高离群点检测的准确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比. 相似文献
16.
传统的离群点检测算法不适合检测流形离群点,目前专门针对流形离群点检测的算法报道较少。为此,基于实验观察的启示,提出用流形局部相关维度检测流形离群点的算法。首先探讨内在维度的性质,并基于实验观察提出用流形局部相关维度来度量流形离群点,然后证明流形局部相关维度可表征数据样本离群的性质,最后基于此性质提出流形离群点检测算法。在人工数据与真实数据上的实验表明本算法可检测流形离群点,且本算法比最近报道的流形除噪算法具有更优的性能。 相似文献
17.
一种基于加权KNN的大数据集下离群检测算法 总被引:2,自引:1,他引:2
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,
然而KNN算法只以最近的第k个部居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据
集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个
邻居的平均距离,离群点为那些与第k个部居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准
确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。 相似文献
18.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。 相似文献