首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 162 毫秒
1.
基于空间约束的离群点挖掘   总被引:1,自引:0,他引:1  
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。  相似文献   

2.
周红福  钱卫宁  魏藜  周傲英 《软件学报》2004,15(Z1):106-113
离群点检测在数据挖掘方面是一项很重要的技术,它是要发现那些行为异常的少量数据,这在数据挖掘的许多领域都有很强的现实意义,如金融欺诈,网络监控等领域.给出了一个高效准确的子空间局部离群点发现的算法(efficient discovery of local outliers in subspaces,简称 EDOLOIS),来避免距离计算的高代价.算法充分利用了原始LOF的信息和特点,结合子空间和原空间的关系,从而能够精确且高效地算出子空间局部离群系数,进而甄别出离群点.形式的分析和严格证明都揭示了该算法对在高维种属属性的数据集中发现局部离群点是高效精确的.  相似文献   

3.
空间数据集中离群数据与正常数据之间的非空间属性值相差较大。针对该情况,提出一种基于K-最邻近(KNN)图的空间离群点挖掘算法。该算法通过所有对象的K近邻关系构造KNN图,将相邻对象非空间属性值的差作为2个对象点间的边权值,利用裁边策略去掉权值较高的边,从而识别出空间离群点和离群区域。实验结果表明,该算法的时间性能优于POD算法。  相似文献   

4.
王妍  潘瑜春  阎波杰   《计算机工程》2010,36(1):33-34,37
为了提高空间数据挖掘的效率和准确度,在分析传统的离群点检测算法优、缺点的基础上,提出一种空间离群点检测算法。用Voronoi来确定空间对象间的邻近关系,在空间邻域内利用空间自相关性来计算局部Moran指数,并将其作为离群因子进而判断离群点。实验结果表明,该算法能够高效、准确地检测出空间离群点,具有对用户依赖性少和可伸缩性强等优点。  相似文献   

5.
为了提高空间数据挖掘的效率和准确度,在分析传统的离群点检测算法优、缺点的基础上,提出一种空间离群点检测算法。用Voronoi来确定空间对象间的邻近关系,在空间邻域内利用空间自相关性来计算局部Moran指数,并将其作为离群因子进而判断离群点。实验结果表明,该算法能够高效、准确地检测出空间离群点,具有对用户依赖性少和可伸缩性强等优点。  相似文献   

6.
离群点的查找算法主要有两类:第一类是面向统计数据,把各种数据都看成是多维空间,没有区分空间维与非空间维,这类算法可能产生错误的判断或找到的是无意义的离群点;第二类算法面向空间数据,区分空间维与非空间维,但该类算法查找效率太低或不能查找邻域离群点。引入熵权的概念,提出了一种新的基于熵权的空间邻域离群点度量算法。算法面向空间数据,区分空间维与非空间维,利用空间索引划分空间邻域,用非空间属性计算空间偏离因子,由此度量空间邻域的离群点。理论分析表明,该算法是合理的。实验结果表明,算法具有对用户依赖性小、检测精度和计算效率高的优点。  相似文献   

7.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

8.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

9.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

10.
空间离群是指非空间属性与其空间邻居显著不同的空间对象。空间数据的特殊性决定了空间离群挖掘需要充分考虑空间数据的特点,才能挖掘出有现实意义的离群。本文对现有主要的空间数据离群挖掘算法进行了研究分析,针对k-邻域法确定空间邻域的缺点,基于Delaunay三角网在表达空间邻近关系的有效性,通过构建Delaunay三角网确定空间邻域并生成空间权重矩阵,据此提出了基于Delaunay三角网的空间离群挖掘算法DT_SOF,并以实际生态地球化学数据进行实验检验。结果表明,算法具有较低的用户依赖性,能准确挖掘空间离群。  相似文献   

11.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

12.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息。为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD。结合[k]近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空间基础上,提出面向多源数据的稀疏因子及稀疏差异因子,有效地刻画了数据对象在多源数据中的稀疏程度,重新定义了相关子空间的度量,使其能适用于多源数据集,并给出基于相关子空间的离群检测算法;采用人工合成数据集和真实的美国人口普查数据集,实验验证了RSMOD算法的性能并分析了源于多数据集的离群关联知识。  相似文献   

13.
李昕  钱旭  王自强 《计算机工程》2010,36(21):34-36
针对高维异常数据的挖掘问题,提出一种基于最大间隔准则和最小最大概率机的高维异常数据挖掘算法。利用最大间隔准则算法将高维数据投影到低维特征空间,再利用最小最大概率机进行异常数据的挖掘。实验结果表明,该算法检测准确率较高。  相似文献   

14.
离异点是偏离部分观察对象的数据点,根据离异点所在单元的密度与相邻单元的密度相比可能偏高或偏低的特点,本文提出了基于网格相邻关系的离异点识别算法GAO。该算法用单元间的相对密度和单元质心距离来衡量单元间的离异度,根据离异度确定离异单元和离异点。实验结果表明,该算法能有效地识别出多密度数据集的离异点,算法的效率优于Cell-based算法,且适合大数据集的离异点识别。  相似文献   

15.
时间序列异常模式的k-均距异常因子检测   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于k-均距异常因子检测时间序列异常模式的算法(K-MDOF)。该算法首先利用边缘权重因子提取时间序列模式表示的边缘点,然后通过提取每一段子模式的四个特征值:模式长度、模式高度、模式均值和标准差将时间序列映射到特征空间,最后利用k-均距异常因子在该特征空间中检测时间序列的异常模式。从模式的角度检测时间序列的异常行为弥补了点异常检测的个体行为局限性,提高了异常检测的效率和准确性,在仿真数据集和真实数据集上的实验结果都证明了在时间序列异常检测中模式异常定义的合理性以及算法的有效性。  相似文献   

16.
不同流形样本点之间的关联性挖掘是决定流形对齐算法效率的关键问题。提出了一种新的思路,利用测地距离初步构造不同流形样本点之间的关联性,再利用样本点之间局部几何结构的相似性进行修正,以更为准确地挖掘不同流形样本点之间的关联性。进一步提出一种新的半监督流形对齐算法,利用已知对应点信息和所挖掘样本点之间的关联性,将多个流形数据投影到共同的低维空间。与传统的半监督流形对齐算法相比,本算法在先验信息不充分的情况下,能更准确地联结不同流形数据集。最后通过在实际数据集上的实验验证了算法的有效性。  相似文献   

17.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。  相似文献   

18.
激光扫描数据的脉冲噪声过滤   总被引:2,自引:2,他引:2  
在分析冯雷的算法和移动最小二乘中位数法(MLMS)的基础上,提出一种能有效剔除脉冲噪声的算法.该算法利用统计学方法中的数据统计特性和噪声统计特性来解决脉冲噪声过滤问题.实例测试结果表明,该算法能在去除脉冲噪声和保留有用数据点之间取得良好的均衡.  相似文献   

19.
In this paper we present a genetic solution to the outlier detection problem. The essential idea behind this technique is to define outliers by examining those projections of the data, along which the data points have abnormal or inconsistent behavior (defined in terms of their sparsity values). We use a partitioning method to divide the data set into groups such that all the objects in a group can be considered to behave similarly. We then identify those groups that contain outliers. The algorithm assigns an ‘outlier-ness’ value that gives a relative measure of how strong an outlier group is. An evolutionary search computation technique is employed for determining those projections of the data over which the outliers can be identified. A new data structure, called the grid count tree (GCT), is used for efficient computation of the sparsity factor. GCT helps in quickly determining the number of points within any grid defined over the projected space and hence facilitates faster computation of the sparsity factor. A new crossover is also defined for this purpose. The proposed method is applicable for both numeric and categorical attributes. The search complexity of the GCT traversal algorithm is provided. Results are demonstrated for both artificial and real life data sets including four gene expression data sets.  相似文献   

20.
为能及时发现数据流上的局部离群点,分析数据流已有的离群点挖掘算法,提出基于小波密度估计的离群点检测算法。利用小波密度估计多尺度和多粒度的特点,通过小波概率阈值判断数据流中当前滑动窗口内的数据点是否为离群点,并对数据流中离群点检测过程进行讨论。仿真结果表明,与核密度估计算法相比,该算法的检测效率与精度较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号