共查询到19条相似文献,搜索用时 187 毫秒
1.
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。 相似文献
2.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。 相似文献
3.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。 相似文献
4.
离群数据挖掘是数据挖掘领域中的重要分支之一.将聚类迭代的思想应用到离群数据挖掘中,给出一种基于大熵值变化区域和余弦相似度的离群迭代算法OIALEVCS.该算法首先针对离群挖掘特点,使用大熵值变化区域来选择初始候选离群对象;其次在每次迭代过程中,利用对海量高维数据有效的余弦相似度作为离群度量因子,搜索每个邻域内最离群的对象作为新的候选离群对象,直至迭代收敛;最后采用晚型星、高红移类星体、类星体三个天体光谱数据集,实验验证了算法有效性和可行性.由于该算法充分利用了大熵值变化区域来选择初始候选离群对象,因而进一步加速了迭代收敛的速度,提高了离群挖掘精确度. 相似文献
5.
一种基于关键域子空间的离群数据聚类算法 总被引:4,自引:0,他引:4
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性. 相似文献
6.
唐锐 《计算机工程与应用》2007,43(9):174-175,230
提出了分布式系统中各站点离群数据之间模式相似性挖掘算法,该算法首先利用基于距离的离群数据挖掘算法挖掘各自站点的离群数据,然后计算离群数据的知识集,最后依据各站点知识集的分布情况来判断离群数据之间的类别相似性和行为相似性。 相似文献
7.
基于规则的分类数据离群挖掘方法研究 总被引:15,自引:0,他引:15
离散数据的挖掘(outlier minign,简称离群挖掘)是数据挖掘的重要内容,现有的离群数据挖掘算法大多对分类数据(categorical data)缺乏有效的处理,提出了基于规则的分类数据离群挖掘方法,采用多层最大离群支持度maxsup,搜索离群规则,有效地解决了这一问题,用这一方法对医学流行病数据进行了各种,分析了该方法的适用范围、性能,验证了方法正确性;另外,实验表明,经过离散化后,基于 相似文献
8.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。 相似文献
9.
10.
基于动态网格的数据流离群点快速检测算法 总被引:8,自引:0,他引:8
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性. 相似文献
11.
12.
介绍了离群数据挖掘的基本概念,全面回顾分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,介绍了一种传统的基于距离的离群数据挖掘算法SL算法,并对该方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。 相似文献
13.
IncLOF:动态环境下局部异常的增量挖掘算法 总被引:12,自引:1,他引:12
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显. 相似文献
14.
15.
16.
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于 MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。 相似文献
17.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。 相似文献
18.
数据挖掘中孤立点的分析研究在实践中应用 总被引:5,自引:0,他引:5
介绍了孤立点的定义和三种挖掘算法,即基于统计的方法、基于距离的方法和基于偏离的方法,在这个基础上,尝试了利用孤立点检测方法对教务管理系统中积累的数据进行分析,并验证了基于距离和的孤立点检测算法的有效性,通过实验,结果分析表明:基于距离和的算法降低了检测过程对用户设置阈值的要求,在时间复杂度上,稍微优于循环嵌套算法。 相似文献