共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
基于频繁项集挖掘算法的改进与研究 总被引:1,自引:1,他引:1
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。 相似文献
4.
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。 相似文献
5.
为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法(M-Apriori)被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率. 相似文献
6.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
7.
一种基于矩阵的动态频繁项集挖掘算法 总被引:4,自引:0,他引:4
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。 相似文献
8.
基于频繁项集挖掘最大频繁项集和频繁闭项集 总被引:3,自引:1,他引:2
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。 相似文献
9.
10.
给出了一种有效的频繁项双空间挖掘方法,充分利用事务数据库的二元特性,通过双空间映射把数据库的项目维和事务维联系在一起,提高了频繁项集的挖掘效率。计算机实验数据表明,双空间搜索挖掘方法对频繁项的数据挖掘是非常有效的,与传统的Apriori方法相比,新方法对数据扩散率和频繁项长短(最小支持度变化)均不敏感,挖掘效率提高很多。 相似文献
11.
基于改进FP-tree的最大频繁项集挖掘算法 总被引:7,自引:1,他引:7
现有的最大频繁项集挖掘算法在挖掘过程中需要进行超集检测,基于FP-tree的算法需要递归的建立条件频繁模式树,挖掘效率不高.提出了一种基于改进FP-tree高效挖掘最大频繁项集的算法(MMFI).该算法修改了FP-tree结构并采用NBN策略,在挖掘过程中既不需要进行超集检测也不需要递归的建立条件频繁模式树.算法分析和实验结果表明,该算法是一种有效、快速的算法. 相似文献
12.
A core issue of the association rule extracting process in the data mining field is to find the frequent patterns in the database of operational transactions. If these patterns discovered, the decision making process and determining strategies in organizations will be accomplished with greater precision. Frequent pattern is a pattern seen in a significant number of transactions. Due to the properties of these data models which are unlimited and high-speed production, these data could not be stored in memory and for this reason it is necessary to develop techniques that enable them to be processed online and find repetitive patterns. Several mining methods have been proposed in the literature which attempt to efficiently extract a complete or a closed set of different types of frequent patterns from a dataset. In this paper, a method underpinned upon Cellular Learning Automata (CLA) is presented for mining frequent itemsets. The proposed method is compared with Apriori, FP-Growth and BitTable methods and it is ultimately concluded that the frequent itemset mining could be achieved in less running time. The experiments are conducted on several experimental data sets with different amounts of minsup for all the algorithms as well as the presented method individually. Eventually the results prod to the effectiveness of the proposed method. 相似文献
13.
一种基于Apriori的动态关联规则挖掘方法 总被引:2,自引:0,他引:2
文章介绍了一种动态关联规则的挖掘方法,该方法的核心思想是仅使用更新的事务和前面阶段的挖掘结果,用Apriori类算法作为局部过程来产生频集,并给出了具体的动态挖掘算法。 相似文献
14.
15.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁项集挖掘得到关联规则。基于云计算的MapReduce模型的数据挖掘算法可以提高挖掘的效果及性能。 相似文献
16.
对于频繁项集挖掘,采用一种FP-数组技术来减少FP-tree的遍历时间,减少数据集的扫描次数,在此基础上提出了一种基于FP-tree进行频繁项集挖掘的FP-growth+算法,提高了算法的效率。最后的实验证明了该算法的有效性。 相似文献
17.
基于频繁项集特性的Apriori算法的改进 总被引:3,自引:0,他引:3
Apriori算法是关联规则中一种重要算法.Apriori算法在求出频繁项集的过程中,需要扫描事务项集里的数据.由于事务项集里只是部分数据有用,所以改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构--树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高,并用实例验证了这些改进能够正确、有效、快速地实现该算法. 相似文献
18.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。 相似文献
19.
由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。 相似文献
20.
对基于数据挖掘的通信网告警相关性分析进行了研究。由于通信网络是动态变化的,用于动态网络资源和服务的自适应关联规则算法需要充分利用和维护原有规则来发现新规则,使网络结构与规则库都能快速更新,为此提出了新型的动态关联规则挖掘算法IDARM。理论分析与仿真实验都显示此算法性能优越、可扩展性好,并在一些特定情况下能显著提高效率。 相似文献