共查询到20条相似文献,搜索用时 93 毫秒
1.
基于反向K近邻的孤立点检测算法 总被引:3,自引:0,他引:3
提出了基于反向K近邻(RKNN)的孤立点检测算法ODRKNN。ODRKNN算法用每个数据点的反向k近邻个数来衡量该数据点的偏离程度,在综合数据集和真实数据集上的实验结果表明,该算法能有效地检测出孤立点,且算法的效率高于算法LOF和LSC的效率. 相似文献
2.
《计算机应用与软件》2014,(6)
基于反向k近邻的孤立点检测算法能够从全局角度较好地检测孤立点,但是在初始阶段求数据点的k近邻时,基本算法需要O(KN2)次数据点间的距离计算,不适合大数据集。同时参数k值的选取对数据集中孤立点的确定产生很大的影响。为此采用自适应的方法确定参数k值,然后提出一种利用度量空间的三角不等式的快速挖掘算法提前剪枝,减少孤立点检测时数据点之间距离计算的次数。理论分析和实验结果证明了算法的可行性和高效性。 相似文献
3.
4.
密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果. 相似文献
5.
《计算机应用与软件》2014,(1)
微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(Clustering Using Representatives)算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。 相似文献
6.
一种有效的可视化孤立点发现与预测新途径 总被引:1,自引:1,他引:0
孤立点发现是数据挖掘活动的重要组成部分,被广泛应用于电子贸易、信用卡等领域的欺诈检测。由于优良的拓扑结构保持和概率分布保持特性,SOM(Self-Organizing Maps)可作为一种有效的降维工具供分析人员获取隐藏于数据中的分布结构信息。在分析了当前基于距离的孤立点发现的基础上,提出了一种基于SOM的孤立点发现与预测新途径,具有可扩展性、可预测性、交互性、简明性等特征。实验结果表明,基于SOM的孤立点发现与预测是有效的。 相似文献
7.
8.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高. 相似文献
9.
一种基于划分的孤立点检测算法 总被引:7,自引:0,他引:7
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高. 相似文献
10.
根据孤立点是数据集合中与大多数数据的属性不一致的数据,边界点是位于不同密度数据区域边缘的数据对象,提出了基于相对密度的孤立点和边界点识别算法(OBRD)。该算法判断一个数据点是否为边界点或孤立点的方法是:将以该数据点为中心、r为半径的邻域按维平分为2个半邻域,由这些半邻域与原邻域的相对密度确定该数据点的孤立度和边界度,再结合阈值作出判断。实验结果表明,该算法能精准有效地对多密度数据集的孤立点和聚类边界点进行识别。 相似文献
11.
12.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。 相似文献
13.
14.
15.
在对入侵检测技术研究的基础上,分析了数据挖掘技术在入侵检测中应用的可行性.并且建立了一种基于数据挖掘的IDS模型.经过分析入侵检测中应用的几种异常点检测算法,归纳和总结了它们的特点,为其他研究者提出新的算法提供了依据. 相似文献
16.
17.
传统的离群点检测算法不适合检测流形离群点,目前专门针对流形离群点检测的算法报道较少。为此,基于实验观察的启示,提出用流形局部相关维度检测流形离群点的算法。首先探讨内在维度的性质,并基于实验观察提出用流形局部相关维度来度量流形离群点,然后证明流形局部相关维度可表征数据样本离群的性质,最后基于此性质提出流形离群点检测算法。在人工数据与真实数据上的实验表明本算法可检测流形离群点,且本算法比最近报道的流形除噪算法具有更优的性能。 相似文献
18.
基于KNN模型的增量学习算法 总被引:4,自引:0,他引:4
KNN模型是公式但其属于非增量学习算法,从而限制它在一些应用领域的推广。文中提出一个基于KNN模型的增量学习算法,它通过对模型簇引进“层”的概念,对新增数据建立不同“层”的模型簇的方式对原有模型进行优化,达到增量学习的效果。实验结果验证该方法的有效性。 相似文献
19.
20.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。 相似文献