首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种动态的频繁项集挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于无向项集图的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

2.
频繁项集挖掘算法综述   总被引:4,自引:0,他引:4  
该文基于频繁项集挖掘算法的研究现状,采用自底向上遍历搜索、自顶向下遍历搜索和混合遍历搜索的分类方法,对现有的频繁项集挖掘算法进行归纳分类,分析和比较了各类别中具有代表性的挖掘算法,总结每种算法各方面的特性.同时,对一些特殊的频繁项集挖掘算法也作了简单介绍.旨在使读者全面掌握频繁项集挖掘算法目前的研究水平,便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,也便于使用者在应用时对算法的选择和使用.  相似文献   

3.
基于频繁项集挖掘算法的改进与研究   总被引:1,自引:1,他引:1  
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。  相似文献   

4.
冯洁  陶宏才 《微计算机信息》2007,23(18):164-166
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。  相似文献   

5.
为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法(M-Apriori)被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率.  相似文献   

6.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

7.
一种基于矩阵的动态频繁项集挖掘算法   总被引:4,自引:0,他引:4  
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

8.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

9.
王伟  高亮  吴涛 《微机发展》2008,18(4):19-21
在数据挖掘中,关联规则的挖掘是一项核心内容,且规则的生成主要集中在如何寻找频繁项集上。一般情况下,寻找频繁项集是困难的,且项数越多越难,而最长频繁项集隐含了几乎所有的频繁集,因此,寻找频繁项集就转化为寻找最长频繁项集。文中利用遗传算法的全局最优和海量数据处理性来搜索最长频繁项集,该法只需扫描一次数据库,大大节约了时间。实验也说明了该算法的可行性。  相似文献   

10.
王晓峰 《计算机工程》2007,33(11):29-30,4
给出了一种有效的频繁项双空间挖掘方法,充分利用事务数据库的二元特性,通过双空间映射把数据库的项目维和事务维联系在一起,提高了频繁项集的挖掘效率。计算机实验数据表明,双空间搜索挖掘方法对频繁项的数据挖掘是非常有效的,与传统的Apriori方法相比,新方法对数据扩散率和频繁项长短(最小支持度变化)均不敏感,挖掘效率提高很多。  相似文献   

11.
基于改进FP-tree的最大频繁项集挖掘算法   总被引:7,自引:1,他引:7  
现有的最大频繁项集挖掘算法在挖掘过程中需要进行超集检测,基于FP-tree的算法需要递归的建立条件频繁模式树,挖掘效率不高.提出了一种基于改进FP-tree高效挖掘最大频繁项集的算法(MMFI).该算法修改了FP-tree结构并采用NBN策略,在挖掘过程中既不需要进行超集检测也不需要递归的建立条件频繁模式树.算法分析和实验结果表明,该算法是一种有效、快速的算法.  相似文献   

12.
A core issue of the association rule extracting process in the data mining field is to find the frequent patterns in the database of operational transactions. If these patterns discovered, the decision making process and determining strategies in organizations will be accomplished with greater precision. Frequent pattern is a pattern seen in a significant number of transactions. Due to the properties of these data models which are unlimited and high-speed production, these data could not be stored in memory and for this reason it is necessary to develop techniques that enable them to be processed online and find repetitive patterns. Several mining methods have been proposed in the literature which attempt to efficiently extract a complete or a closed set of different types of frequent patterns from a dataset. In this paper, a method underpinned upon Cellular Learning Automata (CLA) is presented for mining frequent itemsets. The proposed method is compared with Apriori, FP-Growth and BitTable methods and it is ultimately concluded that the frequent itemset mining could be achieved in less running time. The experiments are conducted on several experimental data sets with different amounts of minsup for all the algorithms as well as the presented method individually. Eventually the results prod to the effectiveness of the proposed method.  相似文献   

13.
一种基于Apriori的动态关联规则挖掘方法   总被引:2,自引:0,他引:2  
文章介绍了一种动态关联规则的挖掘方法,该方法的核心思想是仅使用更新的事务和前面阶段的挖掘结果,用Apriori类算法作为局部过程来产生频集,并给出了具体的动态挖掘算法。  相似文献   

14.
为解决P2P网络频繁项集挖掘中存在的全体频繁项集数量过多和网络通信开销较大这两个问题,提出了一种在P2P网络中挖掘最大频繁项集的算法P2PMaxSet。首先,该算法只挖掘最大频繁项集,减少了结果的数量;其次,每个节点只需与邻居节点进行结果交互,节省了大量的通信开销;最后,讨论了网络动态变化时算法的调整策略。实验结果表明,算法P2PMaxSet具有较高的准确率和较少的通信开销。  相似文献   

15.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁项集挖掘得到关联规则。基于云计算的MapReduce模型的数据挖掘算法可以提高挖掘的效果及性能。  相似文献   

16.
对于频繁项集挖掘,采用一种FP-数组技术来减少FP-tree的遍历时间,减少数据集的扫描次数,在此基础上提出了一种基于FP-tree进行频繁项集挖掘的FP-growth+算法,提高了算法的效率。最后的实验证明了该算法的有效性。  相似文献   

17.
基于频繁项集特性的Apriori算法的改进   总被引:3,自引:0,他引:3  
高宏宾  潘谷  黄义明 《计算机工程与设计》2007,28(10):2273-2275,2378
Apriori算法是关联规则中一种重要算法.Apriori算法在求出频繁项集的过程中,需要扫描事务项集里的数据.由于事务项集里只是部分数据有用,所以改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构--树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高,并用实例验证了这些改进能够正确、有效、快速地实现该算法.  相似文献   

18.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。  相似文献   

19.
刘慧婷  沈盛霞  赵鹏  姚晟 《计算机应用》2015,35(10):2911-2914
由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。  相似文献   

20.
对基于数据挖掘的通信网告警相关性分析进行了研究。由于通信网络是动态变化的,用于动态网络资源和服务的自适应关联规则算法需要充分利用和维护原有规则来发现新规则,使网络结构与规则库都能快速更新,为此提出了新型的动态关联规则挖掘算法IDARM。理论分析与仿真实验都显示此算法性能优越、可扩展性好,并在一些特定情况下能显著提高效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号