首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
洪沙  林佳丽  张月良 《计算机科学》2015,42(5):230-233, 264
针对不确定数据集进行离群点检测,设计了基于密度的不确定数据的局部离群因子(Uncertain Local Outlier Factor,ULOF)算法.通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率.结合传统的LOF算法推导出ULOF算法,根据ULOF值判断不确定对象的局部离群程度;然后对ULOF算法的效率性和准确性进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少数据的候选集;最后通过实验证明了ULOF算法对不确定数据检测的可行性和效率性,优化后的方法有效地提高了异常检测准确率,降低了时间复杂度,改善了不确定数据的异常检测性能.  相似文献   

2.
基于距离的不确定离群点检测   总被引:4,自引:0,他引:4  
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.  相似文献   

3.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

4.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

5.
离群点检测是数据挖掘领域的重要研究方向之一,其目的是找出数据集中与其他数据对象显著不同的一小部分数据。离群点检测在网络入侵检测、信用卡欺诈检测、医疗诊断等领域有着非常重要的应用。近年来,粗糙集理论被广泛用于离群点检测,然而,经典的粗糙集模型不能有效处理数值型数据。对此,本文利用邻域粗糙集模型来检测离群点,在邻域粗糙集中引入一种新的信息熵模型——邻域粒度熵。基于邻域粒度熵,提出一种新的离群点检测算法OD_NGE。实验结果表明,相对于已有的离群点检测算法,OD_NGE具有更好的离群点检测性能。  相似文献   

6.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率.  相似文献   

7.
现有反k邻域的流数据离群点挖掘算法存在一些不足之处,即需要遍历每个数据对象,计算复杂度较高,稳定性较差。为了解决这些问题,本文提出一种改进的基于反k近邻的离群点检测算法OL-ORND。该算法采用细胞邻域思想,加入伪反k邻域点概念(反k邻域为空集的点对象),增加了算法的严密性,从而大大提高了算法的效率和准确率。实验表明,算法具有较好的性能。  相似文献   

8.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

9.
一种基于密度的局部离群点检测算法DLOF   总被引:3,自引:0,他引:3  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.提出了一种基于密度的局部离群点检测算法DLOF.该方法通过引入信息熵用于确定各对象的离群属性,在计算各对象之间的距离时采用加权距离,并给离群属性较大的权重,从而提高离群点检测的准确度.另外,该算法在计算离群因子时,采用了两步优化技术,并对采用这两步优化技术后算法的时间复杂度进行了详细分析.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

10.
NLOF:一种新的基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

11.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。  相似文献   

12.
苟杰  马自堂  张喆程 《计算机科学》2016,43(7):251-254, 274
针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN (Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。  相似文献   

13.
军事训练领域的特殊性造成其相关数据存在大量的噪声点,同时也为噪声检测算法提出了相应的要求。分析现有数据噪声点检测算法,提出将数据属性分为空间属性、环境属性、特征属性,利用空间属性确定数据对象的分类,利用环境属性确定具有不同特征的数据对象邻域,利用特征属性计算离群度。改进了基于相对密度的离群度计算方法,提出LRDF算法,实验结果表明,该方法有效地提高了噪声点检测的精度和效率,增强算法可用性。  相似文献   

14.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

15.
刘意  毛莺池 《计算机科学》2022,49(1):146-152
异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等。数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果。由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用。大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足。集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性。文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency Based Sequential Ensemble Method for Outlier Detection, LCSE)。首先基于多样性构造异常检测基本模型,其次根据全局集成一致性筛选出异常候选点,最后考虑数据局部邻域相关性选择并组合基本模型结果。通过实验验证,LCSE相比传统方法异常检测的准确率平均提升了20.7%,与集成算法LSCPAOM和iForest相比,性能(AUC)平均提升了3.6%,因此其性能优于其他集成方法和神经网络方法。  相似文献   

16.
离群点检测是数据管理领域中的热点问题之一,在医疗诊断、金融诈骗、环境监测等领域中具有广泛的应用。目前,随着传感器等设备在数据采集方面的应用,人们发现数据的不确定性普遍存在。与确定性数据相比,挖掘出不确定数据集中潜在的富有价值的信息变得十分困难。针对上述问题,提出了一种快速的不确定离群点检测算法FODU(Fast Outlier Detection approach on Uncertain data sets)。采用分层次划分思想给出了索引的构建策略,这种索引结构不仅克服了传统索引对多维数据管理的局限性,而且能够被快速地进行空间剪枝;为了快速地挖掘出不确定离群点,提出了高效的过滤方法。该方法通过批量过滤与单点过滤两个过程减少了大量的冗余计算,从而提高了检测效率,为了避免可能世界的空间膨胀,给出了数据对象离群概率值的计算方法。通过实验验证了所提算法的有效性,结果表明,相对于现有研究,该算法可以显著提高不确定离群点的检测效率。  相似文献   

17.
近几年,随着数据流和不确定数据的产生,不确定数据流上的异常点检测成为新的研究热点。然而,现有的不确定数据的异常点定义中涉及3个参数,这对于用户是非常难设定的,以致不能查询到适合的异常点。在大多时候,用户更想知道最可能是异常点的对象,因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝,从而减少了一些不必要的计算,同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验,证明了算法的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号