首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于反向K近邻的孤立点检测算法   总被引:3,自引:0,他引:3  
提出了基于反向K近邻(RKNN)的孤立点检测算法ODRKNN。ODRKNN算法用每个数据点的反向k近邻个数来衡量该数据点的偏离程度,在综合数据集和真实数据集上的实验结果表明,该算法能有效地检测出孤立点,且算法的效率高于算法LOF和LSC的效率.  相似文献   

2.
基于反向k近邻的孤立点检测算法能够从全局角度较好地检测孤立点,但是在初始阶段求数据点的k近邻时,基本算法需要O(KN2)次数据点间的距离计算,不适合大数据集。同时参数k值的选取对数据集中孤立点的确定产生很大的影响。为此采用自适应的方法确定参数k值,然后提出一种利用度量空间的三角不等式的快速挖掘算法提前剪枝,减少孤立点检测时数据点之间距离计算的次数。理论分析和实验结果证明了算法的可行性和高效性。  相似文献   

3.
一种增量式的社区发现算法研究   总被引:2,自引:0,他引:2  
王慧芳  黄林鹏  俞晟 《计算机仿真》2008,25(1):149-152,167
传统社区发现算法基本上属于静态的分析算法,其计算复杂性使其难以适应目前网络结构的频繁变化.为了改善静态算法的这一局限性,通过对Radiechi静态算法进行扩展,提出一种增量式的社区发现算法,并将其应用于MSN Space链接结构分析上.该算法能在网络结构变化频繁时进行增量式计算并保证社区发现的实时性.实验结果表明,该增量式算法在处理网络结构变化时的效率相对传统算法有显著提高,尤其对小规模频繁变化的网络有很强的适应力.  相似文献   

4.
张清华  周靖鹏  代永杨  王国胤 《软件学报》2023,34(12):5629-5648
密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.  相似文献   

5.
微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(Clustering Using Representatives)算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。  相似文献   

6.
一种有效的可视化孤立点发现与预测新途径   总被引:1,自引:1,他引:0  
孤立点发现是数据挖掘活动的重要组成部分,被广泛应用于电子贸易、信用卡等领域的欺诈检测。由于优良的拓扑结构保持和概率分布保持特性,SOM(Self-Organizing Maps)可作为一种有效的降维工具供分析人员获取隐藏于数据中的分布结构信息。在分析了当前基于距离的孤立点发现的基础上,提出了一种基于SOM的孤立点发现与预测新途径,具有可扩展性、可预测性、交互性、简明性等特征。实验结果表明,基于SOM的孤立点发现与预测是有效的。  相似文献   

7.
《传感器与微系统》2019,(2):136-139
大多数聚类算法都是在静态情况下运行,使其不允许添加任何增量数据。提出了一种基于K近邻(KNN)的增量聚类算法,算法包含两个创新点,利用K近邻的思想和样本紧密度两个条件处理增量数据;根据簇特征的变化分裂或合并簇。实验表明:提出的算法既可以发现新簇,又能有效规避噪声点,且能够处理非球形的数据集。  相似文献   

8.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高.  相似文献   

9.
一种基于划分的孤立点检测算法   总被引:7,自引:0,他引:7  
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高.  相似文献   

10.
李光兴 《计算机科学》2016,43(Z6):236-238, 280
根据孤立点是数据集合中与大多数数据的属性不一致的数据,边界点是位于不同密度数据区域边缘的数据对象,提出了基于相对密度的孤立点和边界点识别算法(OBRD)。该算法判断一个数据点是否为边界点或孤立点的方法是:将以该数据点为中心、r为半径的邻域按维平分为2个半邻域,由这些半邻域与原邻域的相对密度确定该数据点的孤立度和边界度,再结合阈值作出判断。实验结果表明,该算法能精准有效地对多密度数据集的孤立点和聚类边界点进行识别。  相似文献   

11.
基于网格上近似的大规模数据集离群点检测算法GROUT   总被引:4,自引:0,他引:4  
通过对数据集中离群点分布特性的分析,给出离群点的解析定义,并在度量意义下采用数据空间网格化方法实现对密集数据主体的过滤,从而构造了在时间和空间上均具有极高效率的离群点检测算法。  相似文献   

12.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

13.
分类异常点检测算法及在IDS模型中的应用   总被引:1,自引:0,他引:1  
在分析了各种异常点检测算法的基础上,提出了一种分类异常点检测算法,该方法能够对数据在各个方面表现出的异常情况进行全面检测,精确度高、时间消耗少。提出了一个入侵检测系统模型,包括异常检测层和误用检测层,在异常检测中应用了分类异常点检测方法,该模型可以明显减少系统的漏报率。  相似文献   

14.
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

15.
在对入侵检测技术研究的基础上,分析了数据挖掘技术在入侵检测中应用的可行性.并且建立了一种基于数据挖掘的IDS模型.经过分析入侵检测中应用的几种异常点检测算法,归纳和总结了它们的特点,为其他研究者提出新的算法提供了依据.  相似文献   

16.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

17.
传统的离群点检测算法不适合检测流形离群点,目前专门针对流形离群点检测的算法报道较少。为此,基于实验观察的启示,提出用流形局部相关维度检测流形离群点的算法。首先探讨内在维度的性质,并基于实验观察提出用流形局部相关维度来度量流形离群点,然后证明流形局部相关维度可表征数据样本离群的性质,最后基于此性质提出流形离群点检测算法。在人工数据与真实数据上的实验表明本算法可检测流形离群点,且本算法比最近报道的流形除噪算法具有更优的性能。  相似文献   

18.
基于KNN模型的增量学习算法   总被引:4,自引:0,他引:4  
KNN模型是公式但其属于非增量学习算法,从而限制它在一些应用领域的推广。文中提出一个基于KNN模型的增量学习算法,它通过对模型簇引进“层”的概念,对新增数据建立不同“层”的模型簇的方式对原有模型进行优化,达到增量学习的效果。实验结果验证该方法的有效性。  相似文献   

19.
时空数据异常探测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
以“k倍标准差”准则为基础,提出一种专题属性双重偏离的时空异常检测方法,在每个要素的空间邻近域里采用“k倍标准差”准则探测各时刻的空间异常数据,在每个空间异常数据的时间邻近域中,再次使用该准则判断该要素是否为时序异常,并将所有空间和时间邻近域上均表现为异常的数据定义为时空异常。实验结果表明,该方法是有效可行的。  相似文献   

20.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号