首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 401 毫秒
1.
传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前缀树压缩存储频繁项集的相关信息,不产生候选项集。理论分析与实验结果表明,MPFI算法能有效地提高频繁项集挖掘效率。  相似文献   

2.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。  相似文献   

3.
在数据挖掘中发现关联规则是一个基本问题,而发现频繁项集是关联规则挖掘中最基本、最重要的问题。提出了基于FP-Tree的共享前缀频繁项集挖掘算法-FP-SPMA算法。构造FP-Tree来压缩事务数据库,通过共享前缀和前瞻剪枝快速减小候选项集,无需递归构造条件模式树,算法性能有明显的提高。  相似文献   

4.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

5.
基于矩阵的频繁项集挖掘算法   总被引:9,自引:3,他引:6       下载免费PDF全文
如何高效地挖掘频繁项集是关联规则挖掘的主要问题。该文根据集合论和矩阵理论,提出一种基于矩阵的频繁项集挖掘算法。该算法只需扫描数据库一次,就能把所有事务转化为矩阵的行,把所有项和项集转化为矩阵的列,在对矩阵操作时能一次性产生所有频繁项集,且当支持度阈值改变时无需重新扫描数据库。实验结果表明,该算法的挖掘效率高于Apriori算法。  相似文献   

6.
对于传统的FP-Growth算法而言,当事务数据库D很大时,构造基于内存的FP树可能是不现实的.针对此问题,提出了一种基于样本事务数据库的SFP算法.该方法对事务数据库D进行随机抽样,得到样本数据库S,此时以比指定的支持度min_sup小的支持度(min_sup')在S中挖掘频繁项集L',根据求得的频繁项集L',在剩余的数据库D-S中求得L'中各事务的支持数,这在大多数情况下就可以求得所有的频繁项集,但是有时可能会漏掉一些.这时可以对D进行二次扫描以发现漏掉的频繁项集.该算法大多数情况下只需要对数据库进行一次扫描,最坏情况下也只需要对数据库进行二次扫描.当把效率放在首位时,比如计算密集事务数据库的频繁项集时,SFP算法尤其合适.  相似文献   

7.
基于索引数组的频繁项集挖掘算法*   总被引:2,自引:0,他引:2  
基于现有的关联规则挖掘算法,提出了一种通过循环迭代增加项为项集后缀的方式产生所有项集的新方法,构造了一种新的数据结构—索引数组,存储所发现的频繁1-项集及其相关信息,以便快速发现项集与事务之间的关系;并提出了一种基于索引数组的频繁项集挖掘新算法。该算法只需扫描数据库两次就能发现所有频繁项集。实验结果表明,该算法可以有效提高频繁项集的挖掘效率。  相似文献   

8.
一种基于前缀树的频繁模式挖掘算法   总被引:4,自引:0,他引:4  
挖掘频繁模式是许多数据挖掘任务的关键步骤。基于FP-Tree的挖掘算法由于无须生成候进项集效率明显高于Apriori类算法,但FP-Tree结构存在动态维护复杂、而且在挖掘过程中需要递归地创建大量的条件FP-Tree,时空效率不高。因此,本文提出一种基于前缀树的新算法。该算法通过引入一种新结构—前缀树(Prefix Tree)用来压缩存放数据所相关信息,并通过调整前缀树中节点信息和节点键直接在Prefix Tree上采用深度优先的策略挖掘频繁模式,而不需要任何附加的数据结构,从而大大提高了挖掘效率。  相似文献   

9.
基于循环十字链表的频繁模式挖掘算法   总被引:1,自引:1,他引:0  
FP-growth算法是当前挖掘频繁模式的有效算法之一,但FP树的节点占用空间较大,长时间占用内存不释放,挖掘过程中需要产生大量的条件FP树,因而时空效率不理想.提出了一种循环十字链表结构用作存储事务数据库,而不生成FP树,在挖掘频繁项集的过程中,这种链表结构逐步缩小,减少了内存的使用率,通过构建排序的条件频繁模式树挖掘频繁项集.理论分析和实验表明基于这种结构的排序条件频繁模式树挖掘频繁项集具有较好的时空效率.  相似文献   

10.
由于网络入侵检测系统的实时性要求,将传统的关联规则挖掘算法直接应用到入侵检测系统中,运行效率往往不能满足实际的需要.考虑到网络审计日志实时更新的特点,提出了一种基于深度优先生成树的关联规则挖掘的改进算法FIDF,它改变了候选项集的产生顺序,优先寻找最大频繁项集.该算法只需扫描一次数据库,且当事务数据库和支持度阈值改变时,无需重新扫描数据库,提高了审计日志数据关联规则挖掘的效率,确保了入侵检测系统的实时性和准确性.  相似文献   

11.
关联规则挖掘向来是数据挖掘的一个重要领域,挖掘算法也层出不穷.本文在深入分析了FP树特性的基础上,改进了FP树构造过程,通过一次扫描事务数据库生成FP树.缩短了关联规则挖掘时间,提高了效率,实验验证了其有效性.  相似文献   

12.
基于频繁链表的频繁集的挖掘算法   总被引:4,自引:0,他引:4  
自从1989年提出KDD以来,关联规则的挖掘一直是人工智能及数据库领域关注的焦点,尤其是项目决策者渴求的制胜法宝。挖掘关联规则的前提是频繁集的挖掘,目前典型的频繁集挖掘算法以Appriori算法为代表。在Appriori算法的基础上提出了一些可行的方法,所有这些算法不外乎达到两个目的:①在穷举的基础上,设法删除对关联规则不太有效的频繁集,减少候选频繁集的数量,达到提高挖掘算法性能的目的。②直接挖掘最大频繁集,以最大频繁集为基础挖掘感兴趣  相似文献   

13.
挖掘和更新最大频繁模式是多种数据挖掘应用中的关键问题。之前的许多研究都是采用Apriori类的候选生成-检验方法或基于FP-Tree的方法,而产生大量候选和动态创建大量FP-Tree的代价太高,特别是在支持度阈值较小或存在长模式时。因此,文章提出了一种最大频繁模式的快速挖掘算法DMFP及更新算法IUMFP。DMFP算法利用前缀树压缩存放数据,并通过调整前缀树中节点信息和节点链直接在前缀树上采用深度优先的策略进行挖掘,而不需要创建条件模式树,从而大大提高了挖掘效率。算法IUMFP充分利用以前的挖掘结果减少发现更新数据中新的最大频繁模式的代价。  相似文献   

14.
基于FP-Tree的频繁闭合项目集挖掘算法的研究   总被引:1,自引:0,他引:1  
目前频繁闭合项目集挖掘算法有很多,例如CLOSET[1]。CLOSET以FP-Growth为基础,采用FP-Tree来表示模式支持集,通过深度优先搜索来挖掘频繁闭合模式。其困难是,递归构造“条件FP-Tree”的CPU开销和存储开销很大。为解决上面的问题,论文提出一种基于FP-Tree和COFI-Tree的频繁闭合项目集挖掘算法,在该算法中引用了COFI-Tree结构,COFI-Tree无需递归地构造“条件FP-Tree”,并且某一时刻只有一个频繁项的COFI-Tree在内存,所以大大减少了内存消耗。通过实验证明:当挖掘大型数据库时,在执行时间方面,该算法比其它算法更有效。  相似文献   

15.
FP-Growth算法的改进   总被引:1,自引:0,他引:1  
基于FP树的FP-Growth算法在挖掘频繁模式过程中需要两次扫描事务集来建立FP树,这不仅降低了算法的效率,而且给数据库服务器带来负担.在原有经典FP-Growth算法的基础上,提出一种基于二维表的方法对原算法进行改进,改进算法通过使用二维向量记录频繁度仅需遍历一次事务集,从而省略FP-Growth算法在生成新条件FP树时对条件模式基的第一次遍历,大大缩短了建立FP树的时间.实验结果表明,该算法的改进优于经典算法.  相似文献   

16.
冯洁  陶宏才 《微计算机信息》2007,23(18):164-166
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。  相似文献   

17.
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。  相似文献   

18.
不产生候选的快速投影频繁模式树挖掘算法   总被引:8,自引:0,他引:8  
1.概述近年来,对事务数据库、时序数据库和各种其它类型数据库中的频繁模式挖掘的研究越来越普及。许多先前的研究都是采用Apriori或类似的候选产生—检查迭代算法,使用候选项集来找频繁项集。这些算法都基于一种重要的反单调的Apriori性质:任何非频繁的(k—1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k—1)-子集不在频繁(k—1)-项集中,则该候选也不可能是频繁的,从而可  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号