首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

2.
适用于关联属性的样本自适应参数孤立点检测法   总被引:1,自引:0,他引:1  
为解决数据集中关联属性之间的干扰问题,通过引进Mahalanobis距离,并对传统的k近邻孤立点检测方法进行了改进,提出了一种新的基于样本的参数选取方法。该方法通过训练数据集中的正常数据和孤立点数据,以获得最优的k距离值和阈值。实验仿真结果表明,提出的算法有更高的准确率,同时降低了误检率。  相似文献   

3.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度.  相似文献   

4.
基于距离的分布式RFID数据流孤立点检测   总被引:1,自引:0,他引:1  
RFID技术已广泛应用于实时监控、对象标识及跟踪等领域,及时发现被监控标签对象的异常状态显得十分重要.然而,由于无线通信技术的不可靠性及环境因素影响,RFID阅读器收集到的数据常常包含噪声.针对分布式RFID数据流的海量、易变、不可靠及分布等特点,提出了基于距离的局部流孤立点检测算法LSOD和基于近似估计的全局流孤立点检测算法GSOD.LSOD需要维护数据流结构CSL来识别安全内点,然后运用安全内点的特性来节省流数据的存储空间和查询时间.根据基于距离的孤立点定义,在中心节点上的全局孤立点是位于每个分布节点上孤立点集合的子集.GSOD采用抽样方法进行全局孤立点近似估计,以减少中心节点的通信量及计算负荷.实验表明,所给出的算法具有运行时间短、占用内存小、准确率高等特点.  相似文献   

5.
孤立点挖掘算法研究   总被引:2,自引:0,他引:2  
孤立点检测是数据挖掘中的重要一项内容.通过对当前的几种孤立点检测算法进行全面深入分析与比较,归纳和总结了它们的特点.对高维和空间数据中孤立点检测进行分析和研究,从而便于研究者以这些算法为基础,做进一步分析,提出新的改进算法.  相似文献   

6.
基于距离的孤立点检测及其应用   总被引:13,自引:2,他引:13  
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

7.
基于距离的孤立点检测研究   总被引:15,自引:0,他引:15  
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

8.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

9.
针对传统SOD孤立点检测算法在处理高维数据时存在的问题,提出一种改进算法。通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低算法结果对参数设定的敏感度,利用相对距离表示各点到中心值的偏离度,使其更利于不同密度子空间的孤立点检测。仿真实验结果表明,改进算法的检测精度优于传统SOD算法。  相似文献   

10.
孤立点检测算法及其在数据流挖掘中的可用性   总被引:3,自引:0,他引:3  
孙云  李舟军  陈火旺 《计算机科学》2007,34(10):200-203
孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效检测孤立点越来越引起国内外研究者的广泛关注。在系统地分析了目前国内外孤立点检测相关文献的基础上,本文对孤立点检测算法进行了较为全面的阐述,并就这些算法是否可以用于数据流上孤立点检测进行了深入探讨和研究,同时指出了这些算法存在的主要问题以及未来的研究方向。  相似文献   

11.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

12.
基于空间约束的离群点挖掘   总被引:1,自引:0,他引:1  
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。  相似文献   

13.
空间离群是指非空间属性与其空间邻居显著不同的空间对象。空间数据的特殊性决定了空间离群挖掘需要充分考虑空间数据的特点,才能挖掘出有现实意义的离群。本文对现有主要的空间数据离群挖掘算法进行了研究分析,针对k-邻域法确定空间邻域的缺点,基于Delaunay三角网在表达空间邻近关系的有效性,通过构建Delaunay三角网确定空间邻域并生成空间权重矩阵,据此提出了基于Delaunay三角网的空间离群挖掘算法DT_SOF,并以实际生态地球化学数据进行实验检验。结果表明,算法具有较低的用户依赖性,能准确挖掘空间离群。  相似文献   

14.
异常检测是数据挖掘的一个重要组成部分,其中基于密度的方法LOF是目前常用的主要方法。然而LOF方法进行检测时需要设定参数k和MinPts,检测结果对参数非常敏感,容易造成检测错误。该文提出了一种基于Voronoi图的异常检测算法VOD,采用Voronoi图来确定对象间的邻近关系,解决了基于密度方法存在的问题,算法的时间复杂性从O(N2)降低到O(NlogN)。  相似文献   

15.
离群点检测是数据挖掘领域的重要研究方向之一,其目的是找出数据集中与其他数据对象显著不同的一小部分数据。离群点检测在网络入侵检测、信用卡欺诈检测、医疗诊断等领域有着非常重要的应用。近年来,粗糙集理论被广泛用于离群点检测,然而,经典的粗糙集模型不能有效处理数值型数据。对此,本文利用邻域粗糙集模型来检测离群点,在邻域粗糙集中引入一种新的信息熵模型——邻域粒度熵。基于邻域粒度熵,提出一种新的离群点检测算法OD_NGE。实验结果表明,相对于已有的离群点检测算法,OD_NGE具有更好的离群点检测性能。  相似文献   

16.
17.
空间离群点的模型与跳跃取样查找算法   总被引:3,自引:0,他引:3       下载免费PDF全文
目前无论是查找一般的离群点,还是空间离群点,都强调非空间属性的偏离,但在图像处理、基于位置的服务等许多应用领域,空间与非空间属性要综合考虑。为此,首先提出了一个综合考虑两者的空间离群点定义,然后提出了一种新的基于密度的空间离群点查找方法——基于密度的跳跃取样空间离群点查找算法DBSODLS。由于已有的基于密度的离群点查找方法对每一点都要求进行邻域查询计算,故查找效率低,而该算法由于可充分利用已知的邻居信息,即不必计算所有点的邻域,从而能快速找到空间离群点。分析与试验结果表明,该算法时间性能明显优于目前已有的基于密度的算法。  相似文献   

18.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号