首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 421 毫秒
1.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

2.
针对无线传感器网络的离群点检测算法由于没有充分考虑数据的时空关联性和网络的分布特性,导致检测精度低、通信量大和计算复杂度高等局限,提出了基于时空关联的分布计算与过滤的在线离群点检测算法。该算法在各传感器节点上利用传感器读数的时间关联性生成候选离群点,并利用空间关联性对候选离群点进行过滤得到局部离群点,最终将所有传感器节点上的局部离群点集中到sink节点上获得全局离群点。利用时空关联性提高了检测精度,利用分布计算与过滤减少了通信量和计算量,理论分析和实验结果均表明该算法优于现有算法。  相似文献   

3.
基于方形邻域的离群点查找新方法   总被引:4,自引:0,他引:4  
提出一种基于密度的快速查找离群点的算法--基于方形邻域的离群点查找算法(ODBSN),该算法把DBSCAN算法的邻域改造成方形邻域,并吸收基于网格算法的思想,用密集的方形邻域快速排除非离群点;用邻域扩张的思想代替网格划分克服了基于网格算法中"维灾"缺点;同时用局部偏离指数指示离群点的偏离程度,又具有识别精度高和偏离程度可度量的优点.理论分析表明该算法性能优于著名的基于密度的算法,实验表明,ODBSN算法能在各种形状分布与各种密度的数据中有效地查找离群点, 速度明显优于LOF与DBSCAN算法.  相似文献   

4.
近年来,无线传感器网络离群数据检测研究越来越受到人们的关注。无线传感器网络离群数据检测在火灾监测、欺诈和入侵检测等诸多领域都有非常重要的作用。针对无线传感器网络集中式离群数据检测算法能量消耗过快的问题,提出了一种基于密度的分布式离群数据检测算法,并通过引入时空关联性有效提高了检测精度。通过NS2仿真实验,验证了该分布式算法节省了能量消耗,同时保持了较高的检测准确率。  相似文献   

5.
针对传统空间离群点检测算法构建邻域时参数选择困难,处理高维数据的时间复杂度较高等问题,提出了一种基于地统计学的空间离群点检测算法。该算法将空间自相关理论引入空间离群检测中,首先利用3σ规则识别全局离群点,然后利用Delaunay三角网构建空间邻域,将邻域节点均值代替全局离群点,最后使用局部Moran’ I作为空间异常的度量方法。仿真结果表明,该方法不需要选择参数,鲁棒性较强,检测率较高、误警率较低。  相似文献   

6.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

7.
离群点检测是数据挖掘领域的重要研究方向之一,其目的是找出数据集中与其他数据对象显著不同的一小部分数据。离群点检测在网络入侵检测、信用卡欺诈检测、医疗诊断等领域有着非常重要的应用。近年来,粗糙集理论被广泛用于离群点检测,然而,经典的粗糙集模型不能有效处理数值型数据。对此,本文利用邻域粗糙集模型来检测离群点,在邻域粗糙集中引入一种新的信息熵模型——邻域粒度熵。基于邻域粒度熵,提出一种新的离群点检测算法OD_NGE。实验结果表明,相对于已有的离群点检测算法,OD_NGE具有更好的离群点检测性能。  相似文献   

8.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率.  相似文献   

9.
王靖 《软件学报》2011,22(7):1571-1579
近几年来,流形学习在模式识别、机器学习和数据挖掘等许多领域都受到了广泛的关注.但是,通常的流形学习方法对离群点缺乏鲁棒性.对此,提出了一种基于重构权的流形离群点检测方法.该方法在每个样本点构造局部"强"邻域,再利用局部重构权来计算每个样本点的可靠值,最后利用可靠值检测出离群点.该算法具有计算快、参数少、参数敏感性小等优点.基于此离群点检测方法,提出了鲁棒的Isomap算法.实验结果表明,该方法能够有效检测离群点,从而提高流形学习方法对离群点的鲁棒性.  相似文献   

10.
邹云峰  张昕  宋世渊  倪巍伟 《计算机应用》2017,37(10):2932-2937
已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法--LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。  相似文献   

11.
冯骥  冉瑞生  魏延 《智能系统学报》2019,14(5):998-1006
数据挖掘领域,基于最近邻居思想的离群检测算法在面对复杂数据时,很难在没有足够先验知识条件下进行适当的参数选择。为了解决这个问题,本文在自然邻居方法的基础上,提出一种利用加权自然邻居邻域图进行离群检测的算法。该算法在整个过程不需要人为设置参数,并且能在不同分布特征的数据中准确找到数据集中的全局离群点和局部离群点。人工数据集和真实数据的离群检测结果均证明,本算法能够取得和有参数的算法中最优参数相近的效果,算法检测结果远好于对参数敏感算法的大部分情况,且更优于对参数不敏感的算法,具有更强的普适性和实用性。  相似文献   

12.
在传统的基于[K]近邻的算法中,需要为算法设置邻居参数[k]的值,只有具备相关的先验知识才能确定合适的参数值。为了减少参数对于离群点检测的影响,提出了一种无需参数的基于Delaunay三角剖分的离群点检测算法。Delaunay三角剖分是数值分析以及图形学中的重要基础理论,它的构建无需任何参数,在三角剖分图中的每个数据对象与它空间上相邻的点都存在边直接相连,因此可以形成一种有效的邻居关系。算法首先通过Delaunay三角剖分形成每个点的空间邻居集合,然后根据每个点与它们空间邻居之间的分布特征,计算它们的离群程度,根据离群程度的大小判断该点是否为离群点。通过实验与相关的算法比较,算法具有更好的效果。  相似文献   

13.
针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD(neighborhood system density difference)算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。  相似文献   

14.
针对基于密度的局部离群因子算法(LOF),需要计算距离矩阵来进行[k]近邻查寻,算法时间复杂度高,不适合大规模数据集检测的问题,提出基于网格查询的局部离群点检测算法。算法利用距离目标网格中的数据点最近的[k]个其他数据点,一定在该目标网格或在该目标网格的最近邻接网格中这一特性,来改进LOF算法的邻域查询操作,以此减少LOF算法在邻域查询时的计算量。实验结果证明,提出的LOGD算法在与原LOF算法具有基本相同的检测准确率的情况下,能够有效地降低离群点检测的时间。  相似文献   

15.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

16.
洪沙  林佳丽  张月良 《计算机科学》2015,42(5):230-233, 264
针对不确定数据集进行离群点检测,设计了基于密度的不确定数据的局部离群因子(Uncertain Local Outlier Factor,ULOF)算法.通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率.结合传统的LOF算法推导出ULOF算法,根据ULOF值判断不确定对象的局部离群程度;然后对ULOF算法的效率性和准确性进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少数据的候选集;最后通过实验证明了ULOF算法对不确定数据检测的可行性和效率性,优化后的方法有效地提高了异常检测准确率,降低了时间复杂度,改善了不确定数据的异常检测性能.  相似文献   

17.
吴中博  张重生  陈红  秦航 《软件学报》2009,20(7):1885-1894
节约能量以提高网络寿命是传感器网络研究面临的重要挑战.网内聚集查询在中间节点对数据进行预处理,可以减少消息传送的数量或者大小,从而实现能量的有效利用,但是,目前的聚集查询研究假设采样数据都是正确的.而目前的异常检测算法以检测率作为首要目标,不考虑能量的消耗,也不考虑查询的特点.所以将两方面的研究成果简单地结合在一起并不能产生很好的效果.分析了错误和异常数据可能对聚集结果造成的影响,提出了健壮聚集算法RAA(robust aggregation algorithm).RAA 对传统聚集查询进行了改进,在聚集的同时利用读向量相似性判断数据是否发生了错误或异常,删除错误数据,聚集正常数据并报告异常,使用户可以对网络目前状况有清晰的理解.最后,比较了RAA 和TAGVoting(在使用TAG(tiny aggregation)算法聚集的同时利用Voting算法进行异常检测),实验结果表明,RAA 算法在能量消耗和异常检测率方面都优于TAGVoting.  相似文献   

18.
现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF。首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。  相似文献   

19.
Wireless sensor networks (WSNs) consist of small sensors with limited computational and communication capabilities. Reading data in WSN is not always reliable due to open environmental factors such as noise, weakly received signal strength, and intrusion attacks. The process of detecting highly noisy data is called anomaly or outlier detection. The challenging aspect of noise detection in WSN is related to the limited computational and communication capabilities of sensors. The purpose of this research is to design a local time-series-based data noise and anomaly detection approach for WSN. The proposed local outlier detection algorithm (LODA) is a decentralized noise detection algorithm that runs on each sensor node individually with three important features: reduction mechanism that eliminates the noneffective features, determination of the memory size of data histogram to accomplish the effective available memory, and classification for predicting noisy data. An adaptive Bayesian network is used as the classification algorithm for prediction and identification of outliers in each sensor node locally. Results of our approach are compared with four well-known algorithms using benchmark real-life datasets, which demonstrate that LODA can achieve higher (up to 89%) accuracy in the prediction of outliers in real sensory data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号