首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
梁绍一  韩德强 《控制与决策》2019,34(7):1433-1440
异常点检测(outlier detection)领域的大量研究都集中于一类“基于密度的”方法,这类方法能够克服许多传统异常点检测方法的缺陷,但仍大多使用基于几何距离的方式进行数据点局部密度的估计,导致在某些情况下反直观结果的出现.针对该问题,用一种基于邻域链的方法取代传统方法进行局部密度的估计,设计新的异常点检测方法.实验结果表明,对比经典的基于密度的异常点检测方法LOF(Local outlier factor)以及几种基于LOF的改进方法,所提出的方法能够更加准确地区分正常和异常数据点,避免反直观结果的出现.  相似文献   

2.
提出了一个基于邻域密度的异常检测方法,它能处理混合数据的异常值。在该方法中,样本的异常指标被定义为该样本的邻域大小和该样本的平均邻域密度的加权和。为了验证提出的方法,进行了一系列实验。实验结果表明新提出的方法适用于混合数据,并且比其他检测方法更有效。  相似文献   

3.
IncLOF:动态环境下局部异常的增量挖掘算法   总被引:12,自引:1,他引:12  
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显.  相似文献   

4.
基于密度可达的多密度聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为对多密度数据集聚类,提出一种基于密度可达的多密度聚类算法。使用网格划分技术来提高计算每个点密度值的效率,每次聚类都是从最高密度点开始,根据密度可达的概念和广度优先的策略逐步向外扩展进行聚类。实验表明,该算法能够有效地对任意形状、大小的均匀数据集和多密度数据集进行聚类,并能较好地识别出孤立点和噪声,其精度和效率优于SNN算法。  相似文献   

5.
为了提高数据挖掘中异常检测算法在数据量增大时的准确度、灵敏度和执行效率,本文提出了一种基于MapReduce框架和Local Outlier Factor (LOF)算法的并行异常检测算法(MR-DLOF)。首先,将存放在Hadoop分布式文件系统(HDFS)上的数据集逻辑地切分为多个数据块。然后,利用MapReduce原理将各个数据块中的数据并行处理,使得每个数据点的k-邻近距离和LOF值的计算仅在单个块中执行,从而提高了算法的执行效率;同时重新定义了k-邻近距离的概念,避免了数据集中存在大于或等于k个重复点而导致局部密度为无穷大的情况。最后,将LOF值较大的数据点合并重新计算其LOF值,从而提高算法准确度和灵敏度。通过真实数据集验证了MR-DLOF算法的有效性、高效性和可扩展性。  相似文献   

6.
《计算机科学与探索》2016,(12):1763-1772
异常点检测在机器学习和数据挖掘领域中有着十分重要的作用。当前异常点检测算法的一大缺陷是正常数据在边缘处异常度较高,导致在某些情况下误判异常点。为了解决该问题,提出了一种新的基于邻域离散度的异常点检测算法。该算法将数据点所在邻域的离散度作为该数据点的异常度,既能有效避免边缘数据点的异常度过高,又能较好地区分正常点与异常点。实验结果表明,该算法能够有效地检测数据中的异常点,并且算法对参数选择不敏感,性能较为稳定。  相似文献   

7.
局部异常检测(Local outlier factor,LOF)能够有效解决数据倾斜分布下的异常检测问题,在很多应用领域具有较好的异常检测效果.本文面向大数据异常检测,提出了一种快速的Top-n局部异常点检测算法MTLOF(Multi-granularity upper bound pruning based top-n LOF detection),融合索引结构和多层LOF上界设计了多粒度的剪枝策略,以快速发现Top-n局部异常点.首先,提出了四个更接近真实LOF值的上界,以避免直接计算LOF值,并对它们的计算复杂度进行了理论分析;其次,结合索引结构和UB1、UB2上界,提出了两层的Cell剪枝策略,不仅采用全局Cell剪枝策略,还引入了基于Cell内部数据对象分布的局部剪枝策略,有效解决了高密度区域的剪枝问题;再次,利用所提的UB3和UB4上界,提出了两个更加合理有效的数据对象剪枝策略,UB3和UB4上界更加接近于真实LOF值,有利于剪枝更多数据对象,而基于计算复用的上界计算方法,大大降低了计算成本;最后,优化了初始Top-n局部异常点的选择方法,利用区域划分和建立的索引结构,在数据稀疏区域选择初始局部异常点,有利于将LOF值较大的数据对象选为初始局部异常点,有效提升初始剪枝临界值,使得初始阶段剪枝掉更多的数据对象,进一步提高检测效率.在六个真实数据集上的综合实验评估验证MTLOF算法的高效性和可扩展性,相比最新的TOLF(Top-n LOF)算法,时间效率提升可高达3.5倍.  相似文献   

8.
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

9.
异常检测是数据挖掘的一个重要组成部分,其中基于密度的方法LOF是目前常用的主要方法。然而LOF方法进行检测时需要设定参数k和MinPts,检测结果对参数非常敏感,容易造成检测错误。该文提出了一种基于Voronoi图的异常检测算法VOD,采用Voronoi图来确定对象间的邻近关系,解决了基于密度方法存在的问题,算法的时间复杂性从O(N2)降低到O(NlogN)。  相似文献   

10.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

11.
朱庆生  唐汇  冯骥 《计算机科学》2014,41(3):276-278,305
任何涉及k近邻求解问题的算法被应用于处理不同特征的数据集时,参数k值的选择都会明显影响算法的性能和结果。因而,如何选择k近邻算法中敏感参数k值一直是一个研究难点。提出了一种新的近邻关系———自然最近邻,它不需要设置参数k,每个节点的邻居是由算法自适应计算而形成的。针对离群点检测的特殊性,通过确定自然最近邻居搜索算法的终止条件,提出一种基于自然最近邻的新的离群检测算法ODb3N。实验表明,该算法不仅避免了k近邻中参数的选择问题,而且能够更有效地发现离群簇。  相似文献   

12.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

13.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

14.
AIS数据是指通过AIS系统获取的船舶运动轨迹信息, 对其进行挖掘可以获得船舶的运动模式、航行路线、停靠地点等信息. 但其在采集过程中产生的离群点会对聚类等任务造成负面影响, 因此对AIS数据挖掘之前需要进行离群点检测. 然而, 当AIS轨迹数据中存在大量离群点时, 会导致大多数离群点检测算法的准确率显著下降. 为了解决这个问题, 本文提出了一种基于中心移动的轨迹离群点检测算法(center shift outlier detection, CSOD). 通过迫使数据点向其K近邻集合的中心移动, 使每个数据点更加接近典型数据, 从而有效地消除了离群点对聚类的影响. 为了验证本文算法的有效性, 使用浙江海域AIS渔船轨迹数据集, 将本文提出的CSOD算法与一些经典的离群点检测算法进行了对比实验. 实验结果表明, CSOD算法整体上性能更加优越.  相似文献   

15.
提出了一种基于多示例学习(multi-instance learning,MIL)的局部离群点检测算法,称之为MIL-LOF(a local outlier factor based on multi-instance learning).算法采用MIL框架,首先将真实对象提取为多示例形式,然后运用退化策略和权重调整方法,计算综合离群点因子,最后检测离群点.在实际企业监控数据以及公共数据集上将MIL-LOF与经典局部离群点检测算法及其优化算法进行了对比实验,结果表明本文提出的MIL-LOF算法在准确性、全面性及高效性上相对其他算法均可获得较为明显的提高.  相似文献   

16.
基于R-Tree的高效异常轨迹检测算法   总被引:1,自引:0,他引:1  
提出了异常轨迹检测算法,通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹.算法要点如下:(1) 为了有效地表示轨迹的局部特征,以k个连续轨迹点作为基本比较单元,提出一种计算两个基本比较单元间不匹配程度的距离函数,并在此基础上定义了局部匹配、全局匹配和异常轨迹的概念;(2) 针对异常轨迹检测算法普遍存在计算代价高的不足,提出了一种基于R-Tree的异常轨迹检测算法,其优势在于利用R-Tree和轨迹间的距离特征矩阵找出所有可能匹配的基本比较单元对,然后再通过计算距离确定其是否局部匹配,从而消除大量不必要的距离计算.实验结果表明,该算法不仅具有很好的效率,而且检测出来的异常轨迹也具有实际意义.  相似文献   

17.
定位技术的快速发展催生了轨迹大数据,轨迹数据中总是存在着明显偏离轨迹的异常点。检测出轨迹中的异常点对提高数据质量和后续知识发现精度至关重要。目前轨迹异常点检测算法主要为恒定速度阈值法,没有考虑目标在不同时刻运动状态的变化,仅能检测出速度超出指定阈值的一部分异常点,甚至出现检测错误的情况,算法鲁棒性较差。针对现有问题,本文提出一种基于自适应阈值的轨迹异常点检测算法(Trajectory Outlier Detection Algorithm based on adaptive Threshold, TODAT)。TODAT算法充分考虑了目标在一段时间内的运动信息和观测噪声的影响,采用局部阈值窗和均值滤波窗来计算阈值和速度,同时又引入了经济航速阈值和连续异常点放回机制。基于真实船舶数据的实验结果表明,本文算法可根据轨迹数据得到自适应的阈值,有效检测出全部异常点,大幅度提高轨迹数据的质量。  相似文献   

18.
基于局部偏离因子的孤立点检测算法   总被引:1,自引:1,他引:1       下载免费PDF全文
谭庆  张瑞玲 《计算机工程》2008,34(17):59-61
孤立点检测是知识发现中的一个活跃领域,如信用卡欺诈、入侵检测等。研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。该文提出基于局部偏离因子(LDF)的孤立点检测算法,利用每个数据点的LDF衡量该数据点的偏离程度。实验结果表明,该算法能有效检测孤立点,其效率高于LSC算法。  相似文献   

19.
找到异常数据对于传感器网络来说非常重要。本文通过一个例子首先提出了局部异常的概念。与传统异常不同,局部异常仅取决于节点及其周围节点的取值。我们给出了局部异常的形式化定义,并首先提出了解决局部异常的Nave算法,由于其能耗过大,又提出了分布式的解决方案DLODA。DLODA将网络分成多个区域,每个区域选择一个簇头,簇头能够在网内提前算出部分查询结果,并过滤掉不会成为查询结果的数据,以节约能量开销。最后从能量消耗和响应时间两个方面对DLODA的性能进行了评估,实验显示DLODA具有良好性能。  相似文献   

20.
胡云  潘祝山  施珺 《计算机工程》2011,37(21):38-39,42
针对传统离群点检测过程中属性多、维度大等问题,结合粗糙集理论,提出一种基于近邻关系的离群约简搜索算法。利用属性约简技术解决对象不相容的问题,并有效缩减离群搜索的属性空间。计算任意点与其他所有点间的距离和,通过计算基于近邻的加权离群因子来判定离群点,并在通用数据集上进行测试。实验结果表明,该离群检测算法的搜索精度较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号