首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
离群点检测在欺诈检测、网络鲁棒性分析和入侵检测等领域有着重要的应用.Aggarwal和Yu提出的基于子空间投影和遗传算法(GA)的离群点检测方法是处理高维数据的一个有效方法.由于该算法的交叉重组过程采用贪心策略选择子串,并且随着变异概率的改变可能导致发现不了一些有意义的离群数据.文中对该算法的交叉过程和变异过程进行改进,提出一种改进的算法,提高了检测的精度并且不受变异概率改变的影响.  相似文献   

2.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

3.
鉴于离群点引发的数据质量问题给电力应用造成的不良影响,对电力感知数据的特征进行了分析,并基于电力感知数据的时间特征和异常检测技术的易用性需求,提出一种电力感知数据的离群点检测方案。该方案由异常检测服务框架和离群点检测方法构成。异常检测服务框架借鉴Web服务的思想,基于大数据技术,能够支持电力感知数据的存储和计算,并且以服务的形式提供电力感知数据的异常检测能力。离群点检测方法是基于聚类算法和考虑时间属性的数据分段方法来检测电力感知数据中的离群点异常。通过实验验证了该方法的可行性和有效性,结果表明该方法能够有效识别具有时间相关性和连续性的电力感知数据中存在的离群点,且在数据规模增大时,具有良好的并行性和可扩展性。  相似文献   

4.
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法.为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法进行了介绍和归类,将其主要分为静态数据集中的检测方法、数据流中的检测方法、大规模数据中的检测方法和其他...  相似文献   

5.
《软件》2017,(4):18-25
教学评价是大学教学活动中不可缺少的环节,可能出现故意抬高或压低评分及虚假评分的现象,应该找出这些离群数据并加以清除,以提高学生评教数据的正确性。离群点检测问题是数据挖掘技术的重要研究领域之一,本文实验所用教学评价数据属于分类型数据,目前针对分类型数据的离群点检测算法常用的有基于信息熵的贪婪算法和基于频率的AVF算法。针对贪婪算法时间复杂度较高,AVF算法不够准确的问题,本文提出一种改进的基于频率的离群点检测算法。本文算法首先采用改进的k-modes算法对教学评价数据进行聚类,并提出应用调整的余弦相似度公式作为相似性度量,筛选出远离簇中心的候选离群点,最后通过基于频率的离群点检测算法对候选集进行检测。在真实数据集上的实验表明算法在精确度和效率方面均具有优势。  相似文献   

6.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

7.
基于图像重建出的三维点云模型通常会包含许多离群点,这些离群点可能孤立存在或密集聚集在一起形成点簇,也可能分布在模型周围甚至附着在模型表面。通过一种检测方法很难有效滤除多种分布状态的离群点,因此,提出了综合的离群点监测算法。首先通过空间距离剔除与模型主体较远的离群点,并通过构建空间拓扑关系加快离群点搜索速度;然后利用边界匹配法,将较小点簇分别与最大点簇进行对比,滤除模型周围离群点簇;最后采用改进的K-means算法,根据RGB颜色值特征对点云数据进行聚簇分类,结合已识别的离群点,检测和滤除附着在模型表面的离群点。仿真实验结果表明,此方法能够有效滤除点云模型中多种分布状态的离群点。  相似文献   

8.
AIS数据是指通过AIS系统获取的船舶运动轨迹信息, 对其进行挖掘可以获得船舶的运动模式、航行路线、停靠地点等信息. 但其在采集过程中产生的离群点会对聚类等任务造成负面影响, 因此对AIS数据挖掘之前需要进行离群点检测. 然而, 当AIS轨迹数据中存在大量离群点时, 会导致大多数离群点检测算法的准确率显著下降. 为了解决这个问题, 本文提出了一种基于中心移动的轨迹离群点检测算法(center shift outlier detection, CSOD). 通过迫使数据点向其K近邻集合的中心移动, 使每个数据点更加接近典型数据, 从而有效地消除了离群点对聚类的影响. 为了验证本文算法的有效性, 使用浙江海域AIS渔船轨迹数据集, 将本文提出的CSOD算法与一些经典的离群点检测算法进行了对比实验. 实验结果表明, CSOD算法整体上性能更加优越.  相似文献   

9.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的.  相似文献   

10.
陈庄  黄勇  邹航 《计算机科学》2014,41(5):178-181,203
目前,工业控制系统广泛应用于我国电力、水利、污水处理、石油天然气、化工、交通运输、制药以及大型制造行业,针对工业控制系统的攻击越来越频繁,而目前市场上工业控制系统的安全产品十分稀少。虽然主流的组态软件具有控制变量报警功能模块,但其只能处理单一变量超过阈值时的报警,不能识别出由多个变量共同引起的异常。为此,针对工业控制系统的变量数据、通信协议、高实时性等特点,提出了基于自适应聚类的离群点挖掘方法——ACBOD方法,该方法包括数据采集、聚类、簇的标识以及簇的离群点检测4个阶段,对工业控制系统OPC Server上的变量数据进行数据分析。实验证明,该方法可以很好地发现工业控制系统中的异常数据,并能够发现未知的异常,能够极大地提高工业控制系统的安全防护能力。  相似文献   

11.
现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此提出一种快速有效的基于层次聚类的全局孤立点检测方法。该方法基于层次聚类的结果,根据聚类树和距离矩阵可视化判断数据孤立程度,并确定孤立点数目。从聚类树自顶向下,无监督地去除孤立点。仿真实验验证了方法能快速有效识别全局孤立点,具有用户友好性,适用于不同形状的数据集,可用于大型高维数据集的孤立点检测。  相似文献   

12.
离群数据检测,主要目的是从海量数据中发现异常数据。其有以下两点好处:第一,作为数据预处理工作,减少噪声点对模型的影响;第二,针对特定场景检测出异常,并对异常现象本身进行挖掘,也非常有价值。目前,国内外主流的方法像LOF、KNN、ORCA等,无法兼顾全局离群点、局部离群点和离群簇同时存在的复杂场景的检测。 针对这一情况,提出了一种新的离群数据检测模型。为了能够最大限度对全局、局部离群数据以及离群簇的全面检测,基于iForest、LOF、DBSCAN分别对于全局离群点、局部离群点、离群簇的高度敏感度,选定该三种特定基分类器,并且改变其目标函数,修正框架的错误率计算方式,进行融合,形成了新的离群数据检测模型ILD-BOOST。实验结果表明,该模型充分兼顾了全局和局部离群数据及离群簇的检测,且效果优于目前主流的离群数据检测方法。  相似文献   

13.
提出了一种新的基于Voronoi图的异常检测方法。采用Voronoi图来确定对象间的邻近关系,定义了一种新的异常因子,算法的时间复杂性为O(nlogn)。实验结果表明,同现有的算法相比具有较高的检测效率和准确性。  相似文献   

14.
异常检测一直是数据挖掘领域的重要工作之一。基于欧式距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上提出了一种多层次的高维数据异常检测算法(Hybrid outlier detection algorithm based on angle variance for High-dimensional data, HODA)。算法结合了粗糙集理论,分析属性之间的相互作用以排除影响较小的属性;通过分析各维度上的数据分布,对数据进行网格划分,寻找可能存在异常点的网格;最后对可能存在异常点的网格计算角度方差异常因子,筛选异常数据。实验结果表明,与ABOD, FastVOA和经典LOF算法相比,HODA算法在保证精测精度的前提下,运行时间显著缩短且可扩展性强。  相似文献   

15.
数据挖掘以发现常规模式为主体,但离群数据在欺诈分析及安全领域具有重要分析价值,离群数据检测已成为数据挖掘的重要内容。对聚类与分类以及关联规则分析中典型的常规数据挖掘算法如何处理离群数据进行全面分析与总结,讨论了BIRCH、CURE、Chameleon、DBSCAN以及基于共享最近邻的聚类算法以及基于不平衡分类和基于非频繁模式的离群检测技术,给出了一种利用K-最近邻算法的离群数据检测方法,并报告了测试结果。  相似文献   

16.
为解决从飞机快速存取记录器(QAR)数据中发现异常数据并预测飞机潜在故障的问题,考虑QAR数据量大、飞行参数数据值相对较为稳定的特点,提出一种适用于QAR数据的离群点检测算法。第一阶段采用K均值聚类对QAR数据流分区进行聚类生成均值参考点;第二阶段采用最小二乘法对生成的均值参考点进行拟合,通过计算均值参考点到拟合飞机参数曲线的距离来判断并找出可能的离群点。实验结果表明,该算法可以准确发现飞机中的故障数据,有效解决部分飞机故障的离群点检测问题。  相似文献   

17.
Outlier detection is an important problem occurring in a wide range of areas. Outliers are the outcome of fraudulent behaviour, mechanical faults, human error, or simply natural deviations. Many data mining applications perform outlier detection, often as a preliminary step in order to filter out outliers and build more representative models. In this paper, we propose an outlier detection method based on a clustering process. The aim behind the proposal outlined in this paper is to overcome the specificity of many existing outlier detection techniques that fail to take into account the inherent dispersion of domain objects. The outlier detection method is based on four criteria designed to represent how human beings (experts in each domain) visually identify outliers within a set of objects after analysing the clusters. This has an advantage over other clustering-based outlier detection techniques that are founded on a purely numerical analysis of clusters. Our proposal has been evaluated, with satisfactory results, on data (particularly time series) from two different domains: stabilometry, a branch of medicine studying balance-related functions in human beings and electroencephalography (EEG), a neurological exploration used to diagnose nervous system disorders. To validate the proposed method, we studied method outlier detection and efficiency in terms of runtime. The results of regression analyses confirm that our proposal is useful for detecting outlier data in different domains, with a false positive rate of less than 2% and a reliability greater than 99%.  相似文献   

18.
针对现有的离群数据检测算法时间复杂度过高,且检测质量不佳的不足,提出一种新的基于改进的OPTICS聚类和LOPW的离群数据检测算法。首先,使用改进的OPTICS聚类算法对原始数据集进行预处理,筛选由聚类形成的可达图得到初步离群数据集;然后,利用新定义的基于P权值的局部离群因子LOPW计算初步离群数据集中对象的离群程度,计算距离时引入去一划分信息熵增量确定属性的权重,提高离群检测准确性。实验结果表明,改进后的算法不仅提高了运算效率,而且提高了对离群数据检测的精确度。  相似文献   

19.
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号