首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 54 毫秒
1.
相关子空间中的局部离群数据挖掘算法研究   总被引:1,自引:0,他引:1  
针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了"维灾"的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性.  相似文献   

2.
为了提高离群数据检测精度和效率,提出了一种基于相关子空间的离群数据检测算法。该算法首先根据数据局部密度分布特征得出稀疏度矩阵,通过高斯相似核函数放大稀疏度特征;然后计算各属性维中数据稀疏度相似因子,确定子空间向量及相关子空间,结合数据稀疏度和维度权值得出数据对象的离群因子,选取最大的若干个对象为离群数据;最后采用人工数...  相似文献   

3.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息.为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD.结合k近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空...  相似文献   

4.
针对大多数离群数据检测方法依赖于用户确定参数以及维灾现象,给出了一种基于基尼指标加权的离群子空间与离群数据挖掘方法。该方法通过计算各个维上去一划分的基尼指标值来生成数据对象的离群子空间及属性权向量,在子空间中采用基于统计离群数据挖掘的思想来挖掘离群数据;不需输入参数,结果更具客观性,并且能够适应高维离群数据挖掘;最后采用恒星光谱数据集,验证了可行性和有效性。  相似文献   

5.
目前大多数局部离群数据挖掘算法需人为事先设置参数或阈值,且难以应用到高维数据集.给出一种新的局部离群数据挖掘算法PSO-SPLOF,该算法首先将数据集划分为互不相交的子空间,利用偏斜度判断子空间划分的优劣,并采用微粒群算法搜索最优划分子空间集;其次针对每个最优划分子空间,计算其数据对象的局部离群因子SPLOF值,并用SPLOF值来度量数据对象的局部偏离程度.最后采用离散化的天体光谱数据作为数据集,实验验证了PSO-SPLOF算法具有受人为因素影响小、伸缩性强和运算效率高等优点.  相似文献   

6.
通过分析子空间搜索算法的研究现状以及存在的问题,提出基于幂图的离群子空间搜索算法。该方法主要讨论离群点产生的原因,能够找出单个对象的离群子空间,并根据离群子空间对离群点进行分类。在对幂图扩展的基础上进行剪枝,减少了存储量和计算量,算法性能得到很大的提高。采用实例说明了该算法,并通过实验证明了该算法的可行性和高效性。  相似文献   

7.
基于局部信息熵的加权子空间离群点检测算法   总被引:7,自引:0,他引:7  
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象.“维度灾殃”现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.  相似文献   

8.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

9.
局部空间离群点算法的改进及其实现   总被引:1,自引:0,他引:1       下载免费PDF全文
LOF算法是一个著名的局部离群点查找方法,该方法赋予了表征每一个空间点偏离程度的数值。但LOF算法存在效率低和性能差的问题,为此对该算法进行了以下两个方面的改进:第一,提出了降低该算法时间复杂度的两步改进方法,并对这两步改进方法的时间复杂度也进行详细分析,第二,使得该算法在查找局部离群点时,不仅考虑了空间属性,也考虑了非空间属性。另外还通过实验测试了LOF算法及其改进方法的时间效率,以及在模拟数据和真实数据情况下的查找离群点的效果。实验结果表明,改进方法具有更好的时间效率和性能。  相似文献   

10.
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,已广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域. 在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率. 本文在KNN基础上,通过定义“解集”的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法. 分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响.  相似文献   

11.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

12.
基于可达邻域的异常检测算法   总被引:1,自引:0,他引:1       下载免费PDF全文
肖辉  龚薇 《计算机工程》2007,33(17):74-76
提出了可达邻域的概念,定义了基于可达邻域的异常RN-Outlier。给出了RNOF异常检测算法,克服了异常检测算法常被参数依赖和参数扰动所困扰的缺点。仿真数据集和真实数据集的实验表明,该算法的性能超过了经典的LOF和LSC算法,降低了参数依赖和参数扰动的影响。  相似文献   

13.
提出了一种基于多示例学习(multi-instance learning,MIL)的局部离群点检测算法,称之为MIL-LOF(a local outlier factor based on multi-instance learning).算法采用MIL框架,首先将真实对象提取为多示例形式,然后运用退化策略和权重调整方法,计算综合离群点因子,最后检测离群点.在实际企业监控数据以及公共数据集上将MIL-LOF与经典局部离群点检测算法及其优化算法进行了对比实验,结果表明本文提出的MIL-LOF算法在准确性、全面性及高效性上相对其他算法均可获得较为明显的提高.  相似文献   

14.
找到异常数据对于传感器网络来说非常重要。本文通过一个例子首先提出了局部异常的概念。与传统异常不同,局部异常仅取决于节点及其周围节点的取值。我们给出了局部异常的形式化定义,并首先提出了解决局部异常的Nave算法,由于其能耗过大,又提出了分布式的解决方案DLODA。DLODA将网络分成多个区域,每个区域选择一个簇头,簇头能够在网内提前算出部分查询结果,并过滤掉不会成为查询结果的数据,以节约能量开销。最后从能量消耗和响应时间两个方面对DLODA的性能进行了评估,实验显示DLODA具有良好性能。  相似文献   

15.
基于局部偏离因子的孤立点检测算法   总被引:1,自引:1,他引:1       下载免费PDF全文
谭庆  张瑞玲 《计算机工程》2008,34(17):59-61
孤立点检测是知识发现中的一个活跃领域,如信用卡欺诈、入侵检测等。研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。该文提出基于局部偏离因子(LDF)的孤立点检测算法,利用每个数据点的LDF衡量该数据点的偏离程度。实验结果表明,该算法能有效检测孤立点,其效率高于LSC算法。  相似文献   

16.
针对电网中的拓扑错误和不良遥测信息严重影响电网的安全运行的现象,提出了基于改进局部异常因子算法的拓扑辨识方法.该方法利用统计理论对开关及刀闸的状态信息和电网的遥测信息进行评估,同时考虑到遥测及遥信信息对拓扑错误辨识的影响不同,采用相对熵对其数据进行加权处理,并在异常拓扑状态检测过程中,通过网格来屏蔽那些非异常的对象,提升算法效率.实验结果表明,该算法能够快速识别电网中的拓扑错误,发现其中的不良遥测信息.  相似文献   

17.
针对传统SOD孤立点检测算法在处理高维数据时存在的问题,提出一种改进算法。通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低算法结果对参数设定的敏感度,利用相对距离表示各点到中心值的偏离度,使其更利于不同密度子空间的孤立点检测。仿真实验结果表明,改进算法的检测精度优于传统SOD算法。  相似文献   

18.
王飞 《计算机系统应用》2015,24(12):233-238
异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于气象预报、网络入侵检测、电信和信用卡欺诈侦察等领域.基于密度的异常检测算法LOF具有较好的检测效果和适用性,但其计算量较大,运行效率不够高,且在进行对象之间的距离计算时忽略了不同属性对异常值的不同影响.针对以上不足,本文提出了一种高效的LOF改进算法iLOF*.该算法利用网格进行数据约简,从而提高了算法的运行效率;同时,在进行对象之间的距离计算时,引入信息熵,给不同属性赋予不同的权值,从而提高了算法的准确率.另外,用MapReduce计算框架将iLOF*算法并行化,进一步提高了算法在大规模数据集上的运行效率.最后的实验结果验证了iLOF*算法的有效性和高效性.  相似文献   

19.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号