首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法。为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法进行了介绍和归类,将其主要分为静态数据集中的检测方法、数据流中的检测方法、大规模数据中的检测方法和其他方法等四大类。对每类方法所解决的问题、算法思想、应用场景以及各自的优缺点进行了详细的归纳和分析,指出目前存在的问题以及未来发展方向。  相似文献   

2.
针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD(neighborhood system density difference)算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。  相似文献   

3.
邹云峰  张昕  宋世渊  倪巍伟 《计算机应用》2017,37(10):2932-2937
已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法--LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。  相似文献   

4.
梅林  张凤荔  高强 《计算机应用研究》2020,37(12):3521-3527
为了深入了解离群点检测技术发展状况,对近年离群点检测技术进行综述,首先介绍与总结了离群点的定义、引起离群的原因和离群点挖掘算法的分类;其次,对基于邻近性的离群点检测算法、分布式架构下的离群点检测算法以及基于深度学习的离群点检测算法进行综述与总结,尤其对该领域目前最有代表性的方法进行了探讨,指出了其优缺点;最后展望了离群点检测技术未来的研究方向。  相似文献   

5.
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题.但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测.现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性.基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值.针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法.该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度.该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性.在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响.  相似文献   

6.
为了提升三维点云数据离群点的检测能力,提高检测方法的适应性,解决针对密度分布变化大的点云数据离群点检测效果不佳的问题,提出一种基于邻域密度约束的动态标准差阈值三维点云数据离群点检测方法.该方法充分考虑获取的点云数据的密度差异,将点云的密度特征引入离群点判定阈值的计算.首先利用直通滤波提取目标点云数据,检测并移除无效点;然后分析离群点的检测原理,给出点云k-邻域密度的估算方法;最后通过邻域密度约束实现了标准差阈值的动态调整,并采用不同的约束方式对远离主体点云的外部区域和内点区域的离群点进行检测,实现了密度分布变化明显的点云数据离群点的有效检测.实验结果表明,文中方法能够更加有效地移除离群点,通过标准差阈值动态约束满足了密度分布差异较大的点云数据的针对性检测,提升了检测效果和检测性能,达到了预期的目的,对实际应用具有积极意义.  相似文献   

7.
胡云  潘祝山  施珺 《计算机工程》2011,37(21):38-39,42
针对传统离群点检测过程中属性多、维度大等问题,结合粗糙集理论,提出一种基于近邻关系的离群约简搜索算法。利用属性约简技术解决对象不相容的问题,并有效缩减离群搜索的属性空间。计算任意点与其他所有点间的距离和,通过计算基于近邻的加权离群因子来判定离群点,并在通用数据集上进行测试。实验结果表明,该离群检测算法的搜索精度较高。  相似文献   

8.
杨茂林  卢炎生 《计算机科学》2012,39(10):152-156
基于距离的离群点挖掘通常需要O(N2)的时间进行大量的距离计算与比较,这限制了其在海量数据上的应用。针对此问题,提出了一个带剪枝功能的离群点挖掘算法。算法分为两步:在对数据集进行一遍扫描后,剪枝掉大量的非离群点;然后对余下的可疑数据实施一种改进的嵌套循环算法,以每个数据点与其k个最近邻点的平均距离作为离群度,确定前n个离群点。在真实数据和合成数据集上的实验结果均表明,该算法在获得高命中率的同时仍保持低误警率。与相关算法相比,其具有较低的时间复杂性。  相似文献   

9.
一种基于密度的局部离群点检测算法DLOF   总被引:3,自引:0,他引:3  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.提出了一种基于密度的局部离群点检测算法DLOF.该方法通过引入信息熵用于确定各对象的离群属性,在计算各对象之间的距离时采用加权距离,并给离群属性较大的权重,从而提高离群点检测的准确度.另外,该算法在计算离群因子时,采用了两步优化技术,并对采用这两步优化技术后算法的时间复杂度进行了详细分析.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

10.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。  相似文献   

11.
梁绍一  韩德强 《控制与决策》2019,34(7):1433-1440
异常点检测(outlier detection)领域的大量研究都集中于一类“基于密度的”方法,这类方法能够克服许多传统异常点检测方法的缺陷,但仍大多使用基于几何距离的方式进行数据点局部密度的估计,导致在某些情况下反直观结果的出现.针对该问题,用一种基于邻域链的方法取代传统方法进行局部密度的估计,设计新的异常点检测方法.实验结果表明,对比经典的基于密度的异常点检测方法LOF(Local outlier factor)以及几种基于LOF的改进方法,所提出的方法能够更加准确地区分正常和异常数据点,避免反直观结果的出现.  相似文献   

12.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

13.
An effective and efficient algorithm for high-dimensional outlier detection   总被引:8,自引:0,他引:8  
The outlier detection problem has important applications in the field of fraud detection, network robustness analysis, and intrusion detection. Most such applications are most important for high-dimensional domains in which the data can contain hundreds of dimensions. Many recent algorithms have been proposed for outlier detection that use several concepts of proximity in order to find the outliers based on their relationship to the other points in the data. However, in high-dimensional space, the data are sparse and concepts using the notion of proximity fail to retain their effectiveness. In fact, the sparsity of high-dimensional data can be understood in a different way so as to imply that every point is an equally good outlier from the perspective of distance-based definitions. Consequently, for high-dimensional data, the notion of finding meaningful outliers becomes substantially more complex and nonobvious. In this paper, we discuss new techniques for outlier detection that find the outliers by studying the behavior of projections from the data set.Received: 19 November 2002, Accepted: 6 February 2004, Published online: 19 August 2004Edited by: R. Ng.  相似文献   

14.
空间离群点的模型与跳跃取样查找算法   总被引:3,自引:0,他引:3       下载免费PDF全文
目前无论是查找一般的离群点,还是空间离群点,都强调非空间属性的偏离,但在图像处理、基于位置的服务等许多应用领域,空间与非空间属性要综合考虑。为此,首先提出了一个综合考虑两者的空间离群点定义,然后提出了一种新的基于密度的空间离群点查找方法——基于密度的跳跃取样空间离群点查找算法DBSODLS。由于已有的基于密度的离群点查找方法对每一点都要求进行邻域查询计算,故查找效率低,而该算法由于可充分利用已知的邻居信息,即不必计算所有点的邻域,从而能快速找到空间离群点。分析与试验结果表明,该算法时间性能明显优于目前已有的基于密度的算法。  相似文献   

15.
Outlier detection is a useful technique in such areas as fraud detection, financial analysis and health monitoring. Many recent approaches detect outliers according to reasonable, pre-defined concepts of an outlier (e.g., distance-based, density-based, etc.). However, the definition of an outlier differs between users or even datasets. This paper presents a solution to this problem by including input from the users. Our OBE (Outlier By Example) system is the first that allows users to provide examples of outliers in low-dimensional datasets. By incorporating a small number of such examples, OBE can successfully develop an algorithm by which to identify further outliers based on their outlierness. Several algorithmic challenges and engineering decisions must be addressed in building such a system. We describe the key design decisions and algorithms in this paper. In order to interact with users having different degrees of domain knowledge, we develop two detection schemes: OBE-Fraction and OBE-RF. Our experiments on both real and synthetic datasets demonstrate that OBE can discover values that a user would consider outliers.  相似文献   

16.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

17.
现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF。首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。  相似文献   

18.
基于密度的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
闫少华  张巍  滕少华 《计算机工程》2011,37(18):240-242
给出一种基于密度的局部离群点挖掘方法。采用KDD99数据集进行实验,对数据集中的41个属性提取特征,利用基于密度的聚类对统计处理过的数据集实行剪枝操作,剪除数据集中大部分密集的数据对象,保留未被剪除的候选离群对象集。采用局部离群挖掘方法计算离群候选对象的离群因子,检测出异常攻击。实验结果表明,该方法能保证较高的检测率和较低的误报率。  相似文献   

19.
Outlier detection research has been seeing many new algorithms every year that often appear to be only slightly different from existing methods along with some experiments that show them to “clearly outperform” the others. However, few approaches come along with a clear analysis of existing methods and a solid theoretical differentiation. Here, we provide a formalized method of analysis to allow for a theoretical comparison and generalization of many existing methods. Our unified view improves understanding of the shared properties and of the differences of outlier detection models. By abstracting the notion of locality from the classic distance-based notion, our framework facilitates the construction of abstract methods for many special data types that are usually handled with specialized algorithms. In particular, spatial neighborhood can be seen as a special case of locality. Here we therefore compare and generalize approaches to spatial outlier detection in a detailed manner. We also discuss temporal data like video streams, or graph data such as community networks. Since we reproduce results of specialized approaches with our general framework, and even improve upon them, our framework provides reasonable baselines to evaluate the true merits of specialized approaches. At the same time, seeing spatial outlier detection as a special case of local outlier detection, opens up new potentials for analysis and advancement of methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号