首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 175 毫秒
1.
项响琴  汪彩梅 《微机发展》2010,(1):124-127,131
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

2.
基于聚类高维空间算法的离群数据挖掘技术研究   总被引:2,自引:1,他引:2  
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

3.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

4.
针对窃电行为现场查证具有难以克服的现实困难,提出一种基于离群数据挖掘的窃电行为检测方法。该离群算法基于密度聚类算法,采用基于用电量波动的不同方向识别不同的用电模式,基于用电频率、离群距离以及异常规则关联度的计算挖掘潜在离群数据点,并通过基于评价矩阵确定离群阈值对离群数据点存在窃电行为的可能性进行确定性分析,实现对窃电行为的数据化检测。最后通过仿真测试证明该算法在针对混杂不同用电模式的用电数据的窃电检测方面相对于其他数据挖掘算法具有更好的性能表现。  相似文献   

5.
为识别混合属性数据集中的离群点,提出了一种基于共享最近邻的离群检测算法,通过计算增量聚类结果簇间的共享最近邻相似度,不但能够发现任意形状的簇,还可以检测到变密度数据集中的全局离群点。算法时间复杂度关于数据集的大小和属性个数呈近似线性。在人工数据集和真实数据集上的实验结果显示,提出的算法能有效检测到数据集中的离群点。  相似文献   

6.
最近几年,谱聚类思想开始用于数据挖掘领域,并取得了较好的效果;离群数据挖掘是对离群点进行检测,发掘出有用知识。将谱聚类中的NJW算法成功应用到离群数据挖掘领域,并结合离群指数的概念,提出了一种适合离群数据挖掘的谱聚类算法。与原有的基于聚类的离群检测算法相比,具有更好的效率和适应性。实验验证了所提算法的有效性和可行性。  相似文献   

7.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

8.
离群数据挖掘是数据挖掘的重要任务之一。首先分析了离群数据及其挖掘方法,然后根据LF算法和CSI算法,提出了基于群体智能的离群数据挖掘算法,并进行了仿真实验。实验结果显示了基于群体智能的离群数据挖掘算法的有效性。与其它方法相比,该算法避免了用户在设定参数初始值时给算法带来的影响,并且不需要设定初始聚类中心,因此具有更好的鲁棒性。  相似文献   

9.
利用矢量量化码书作为数据分类模式最优代表集的特点,提出基于码书的离群点概念,论证了其与经典统计学关于离群点定义的内在联系。在基于学习的矢量量化码书生成算法和最近邻码字搜索算法基础上构造了离群点检测算法。实验结果表明了提出的关于离群点定义的合理性和算法的有效性。  相似文献   

10.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能.  相似文献   

11.
侯天子  朱焱 《软件》2011,(11):25-28,31
在数据挖掘过程中,有很多挖掘算法试图使离群点的影响最小化,甚至是排除它们,然而这样可能丢失一些重要的信息。如今,在欺诈检测、网络入侵检测、故障诊断等问题中,离群点挖掘得到了越来越多的应用,离群点的发掘成为一个热门研究问题。I-Miner是一个企业级的数据挖掘工具,在本文中利用I-Miner软件对数据进行预处理,并用通过S语言拓展软件功能,编写了3种离群点算法并使用多个数据测试,对结果进行分析和对比研究。  相似文献   

12.
针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。  相似文献   

13.
分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题, 目前还缺少针对性方法来专门检测类别型标签噪声. 离群点检测技术能用于噪声的识别与过滤, 但由于离群点与类别型标签噪声并不具有一致性, 使得离群点检测算法无法精确检测分类数据集中的标签噪声. 针对这些问题, 提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法 —— 基于相对离群因子(Relative outlier factor, ROF)的集成过滤方法(Label noise ensemble filtering method based on relative outlier factor, EROF). 首先, 通过相对离群因子对样本进行噪声概率估计; 然后, 再迭代联合多种离群点检测算法, 实现集成过滤. 实验结果表明, 该方法在大多数含有标签噪声的数据集上, 都能保持优秀的噪声识别能力, 并显著提升各种分类模型的泛化能力.  相似文献   

14.
梅林  张凤荔  高强 《计算机应用研究》2020,37(12):3521-3527
为了深入了解离群点检测技术发展状况,对近年离群点检测技术进行综述,首先介绍与总结了离群点的定义、引起离群的原因和离群点挖掘算法的分类;其次,对基于邻近性的离群点检测算法、分布式架构下的离群点检测算法以及基于深度学习的离群点检测算法进行综述与总结,尤其对该领域目前最有代表性的方法进行了探讨,指出了其优缺点;最后展望了离群点检测技术未来的研究方向。  相似文献   

15.
IncLOF:动态环境下局部异常的增量挖掘算法   总被引:13,自引:1,他引:12  
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显.  相似文献   

16.
Outlier detection is an imperative field of data mining that has several applications in the field of medical research. Mining outliers based on the notion of rare patterns can be a promising solution for medical diagnosis as it attempts to identify the unconventional and abnormal risk patterns present in medical data. A crucial issue in medical data analysis is the continuous growth of medical databases due to the addition of new records. Existing outlier detection techniques are capable of handling only static data and thus re-execute from scratch to identify the outliers from incremental medical data. This paper introduces an efficient rare pattern based outlier detection (RPOD) method that identifies outliers by mining rare patterns from incremental data. To avoid multiple database scans and expensive candidate generation steps performed by existent rare pattern mining techniques and facilitate incremental mining, a single pass prefix tree-based rare pattern mining technique is proposed. The proposed rare pattern mining technique is a modification of the well-known FP-Growth frequent pattern mining algorithm. Furthermore, to identify the outliers based on the set of generated rare patterns, an outlier detection technique is also presented. The significance of proposed RPOD approach is demonstrated using several well-known medical datasets. Comparative performance evaluation substantiates the predominance of RPOD approach over existing outlier mining methods.  相似文献   

17.
基于相似度计算的本体映射优化方法   总被引:2,自引:1,他引:2       下载免费PDF全文
谷志锋  刘勇  郭跟成 《计算机工程》2008,34(19):56-57,6
在基于相似度计算的本体映射中,相似度计算量大的主要原因是待映射概念和待计算属性过多。该文采用过滤策略,利用候选映射策略和信息增益策略减少待映射概念和待计算属性数量。该过滤策略充分利用本体特点和数据挖掘思想,有效滤除没有计算意义的概念和属性,减少了相似度计算量。实验结果证明,滤除的概念和属性对映射效果的影响很小。  相似文献   

18.
李云  袁运浩  陈峻 《计算机工程》2008,34(19):44-46
孤立点挖掘是数据挖掘的重要研究方向之一,其目标是发现数据集中不具备数据一般特性的数据对象。传统孤立点挖掘算法通常基于项集属性,不适用于多目标决策和综合评价。该文提出一种基于灰色关联分析的孤立点检测算法OMGRA,通过总评价判断数挖掘孤立点集,避免人工确定阈值。实例分析表明,该算法能有效检测数据集中的孤立点,挖掘出的孤立点符合实际情况。  相似文献   

19.
代表点选择是面向数据挖掘与模式识别的数据预处理的重要内容之一,是提高分类器分类正确率和执行效率的重要途径。提出了一种基于投票机制的代表点选择算法,该算法能使所得到的代表点尽可能分布在类别边界上,且投票选择机制易于排除异常点,减少数据量,从而有利于提高最近邻分类器的分类精度和效率。通过与多个经典的代表点选择算法的实验比较分析,表明所提出的基于投票机制的代表点选择算法在提高最近邻分类器分类精度和数据降低率上都具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号