首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
基于距离的孤立点检测研究   总被引:15,自引:0,他引:15  
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

2.
基于2k-距离的孤立点算法研究   总被引:1,自引:0,他引:1  
杨臻 《福建电脑》2009,25(2):77-78
孤立点检测一直是数据挖掘中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。文章介绍了相关概念,分析了几类有代表性的算法。最后,给出了一个判定孤立点的新的定义,并按此定义进行了检测,用实际数据进行了实验。实验结果表明,该算法能够能够有效地检测出孤立点。  相似文献   

3.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度.  相似文献   

4.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

5.
孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时.样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段.并给出了基于密度偏差抽样的孤立点检测算法,该算法可以用来识别样本数据集低密度区域中的孤立点数据,并从理论和实验两个方面对其进行分析评估,分析与实践证明该算法是有效的。  相似文献   

6.
数据挖掘中孤立点的分析研究在实践中应用   总被引:5,自引:0,他引:5  
介绍了孤立点的定义和三种挖掘算法,即基于统计的方法、基于距离的方法和基于偏离的方法,在这个基础上,尝试了利用孤立点检测方法对教务管理系统中积累的数据进行分析,并验证了基于距离和的孤立点检测算法的有效性,通过实验,结果分析表明:基于距离和的算法降低了检测过程对用户设置阈值的要求,在时间复杂度上,稍微优于循环嵌套算法。  相似文献   

7.
空间孤立点是指与邻居具有不连续性的空间点,或者是偏离观测值以至使人们认为是由不同的体系产生的。空间孤立点检测在交通、生态、公共安全、卫生健康、地震、海啸等领域有广泛应用。传统的根据一个非空间属性值进行孤立点判断的方法客易引起孤立点判断失误。作者在针对多个属性进行考虑的基础上,提出以空间维确定邻居关系,非空间维定义距离函数,使用Mahalanobis距离检测孤立点,研究一种新的检测空间孤立点的算法。并时时间复杂度进行分析。仿真实验说明算法可以有效地发现大规模空间数据中的孤立点。  相似文献   

8.
LDC-mine——基于局部偏差系数的孤立点挖掘算法   总被引:1,自引:0,他引:1  
孤立点检测一直是知识发现(KDD)中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。提出了一个新的度量LDC(局部偏差系数)因子和基于LDC的孤立点挖掘的算法LDC-mine。实验证明:该算法能够有效地检测出孤立点。  相似文献   

9.
本文介绍了孤立点的基本概念,对孤立点检测算法进行了较为全面的阐述.在此基础上提出了应用孤立点挖掘进行入侵检测的基本模型,最后给出了孤立点挖掘在入侵检测中的应用现状.并指出了未来的研究方向  相似文献   

10.
基于距离的分布式RFID数据流孤立点检测   总被引:1,自引:0,他引:1  
RFID技术已广泛应用于实时监控、对象标识及跟踪等领域,及时发现被监控标签对象的异常状态显得十分重要.然而,由于无线通信技术的不可靠性及环境因素影响,RFID阅读器收集到的数据常常包含噪声.针对分布式RFID数据流的海量、易变、不可靠及分布等特点,提出了基于距离的局部流孤立点检测算法LSOD和基于近似估计的全局流孤立点检测算法GSOD.LSOD需要维护数据流结构CSL来识别安全内点,然后运用安全内点的特性来节省流数据的存储空间和查询时间.根据基于距离的孤立点定义,在中心节点上的全局孤立点是位于每个分布节点上孤立点集合的子集.GSOD采用抽样方法进行全局孤立点近似估计,以减少中心节点的通信量及计算负荷.实验表明,所给出的算法具有运行时间短、占用内存小、准确率高等特点.  相似文献   

11.
谭琦  杨沛 《计算机应用研究》2008,25(9):2620-2622
为了解决误判问题,从预测的角度给出了离群点的定义,并提出了预测可信度和离群度的概念;同时,提出采用置换技术来降低离群点对预测模型的影响,并提出了基于集成预测的稀有时间序列检测算法。针对真实数据集的实验表明,可信度和离群度的定义是合理的,稀有时间序列检测算法是有效的。  相似文献   

12.
异常点挖掘研究进展   总被引:11,自引:0,他引:11  
异常点是数据集中与其他数据显著不同的数据.一个人的噪声对另一个人而言可能是有用的数据,因此,随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注, 异常点挖掘在信息科学研究领域日益受到重视.在充分调研国内外异常点挖掘研究文献基础上,系统地综述了数据库研究领域中异常点挖掘的研究现状,对已有各种异常点挖掘方法进行了总结和比较,并结合当前研究热点,展望了异常点挖掘未来的研究方向及其面临的挑战.  相似文献   

13.
梅林  张凤荔  高强 《计算机应用研究》2020,37(12):3521-3527
为了深入了解离群点检测技术发展状况,对近年离群点检测技术进行综述,首先介绍与总结了离群点的定义、引起离群的原因和离群点挖掘算法的分类;其次,对基于邻近性的离群点检测算法、分布式架构下的离群点检测算法以及基于深度学习的离群点检测算法进行综述与总结,尤其对该领域目前最有代表性的方法进行了探讨,指出了其优缺点;最后展望了离群点检测技术未来的研究方向。  相似文献   

14.
一种两阶段异常检测方法   总被引:4,自引:0,他引:4  
提出了一种新的距离和对象异常因子的定义,在此基础上提出了一种两阶段异常检测方法TOD,第一阶段利用一种新的聚类算法对数据进行聚类,第二阶段利用对象的异常因子检测异常.TOD的时间复杂度与数据集大小成线性关系,与属性个数成近似线性关系,算法具有好的扩展性,适合于大规模数据集.理论分析和实验结果表明TOD具有稳健性和实用性.  相似文献   

15.
Outlier detection is a very useful technique in many applications, where data is generally uncertain and could be described using probability. While having been studied intensively in the field of deterministic data, outlier detection is still novel in the emerging uncertain data field. In this paper, we study the semantic of outlier detection on probabilistic data stream and present a new definition of distance-based outlier over sliding window. We then show the problem of detecting an outlier over a set o...  相似文献   

16.
基于数学形态学的模糊异常点检测   总被引:1,自引:0,他引:1  
异常点检测作为数据挖掘的一项重要任务,可能会导致意想不到的知识发现.但传统的异常点检测技术都忽略了数据的自然结构,即异常点与簇的联系.然而,把异常点得分和聚类方法结合起来有利于对异常点与簇的联系的研究.提出基于数学形态学的模糊异常点检测与分析,把数学形态学技术和基于连接的异常点检测方法集成到一个模糊模型中,从异常隶属度和模糊隶属度这两个方面来分析对象与簇集的模糊关系.通过充分的实验证明,该算法能够对复杂面状和变密度的数据集,正确、高效地找出异常点,同时发现与异常点相关联的簇信息,探索异常点与簇核的关联深度,对异常点本身的意义具有启发作用.  相似文献   

17.
张悦  刘杰  李航 《计算机工程》2013,39(3):46-50,55
现有孤立点检测方法大多数都需要预先设定孤立点个数,若设定不准确将降低孤立点检测的准确性。针对该问题,提出一种基于概率的孤立点检测方法。结合基于密度的DBSCAN算法与中位数求方差的方法,对待检测数据集进行聚类,提取出不包含在任何聚类中的可疑孤立点并进行分析,从而确定最终孤立点。该方法所检测的数据与时间因素线性无关,不必预先设定孤立点个数及聚类数,并且对噪声数据具有较强的抗干扰能力。IRIS测试数据集上的实验结果表明,该方法能够有效地识别孤立点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号