首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
最大频繁项目集的快速更新   总被引:29,自引:0,他引:29  
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.为克服基于Apriori的最大频繁项目集挖掘算法存在的不足,DMFIA采用FP-tree存储结构及自顶向下的搜索策略,有效地提高了最大频繁项目集的挖掘效率.但对于频繁项目多而最大频繁项目集维数相对较小的情况,DMFIA要经过多层搜索且在每一层产生大量的候选项目集,因而影响算法的执行效率.为此,该文提出了DMFIA的改进算法IDMFIA(the Improved algorithm of DMFIA).IDMFIA采用自顶向下和自底向上双向搜索策略,可尽早修剪掉较短最大频繁项目集的超集和较长最大频繁项目集的子集.另外,该文还提出最大频繁项目集更新算法FUMFIA(Fast Updating Maximum Frequent Itemsets Algorithm),该算法充分利用已建立的FP-tree和已挖掘的最大频繁项目集,可对已挖掘的最大频繁项目集进行高效维护.实验结果表明,IDMFIA和FUMFIA可有效提高最大频繁项目集的挖掘和更新效率.  相似文献   

2.
提出一种基于FP—tree的最大频繁项目挖掘算法DMFIA—D,该算法运用双向搜索策略。根据FP—tree构造特征自顶向下选取最大频繁候选项集,自底向上对候选项集进行计数、剪枝最终确定最大频繁项目集。由于减少了最大频繁候选集,并对候选集进行有效剪枝,从而缩短算法的挖掘时间,提高挖掘效率。  相似文献   

3.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,这类算法会产生巨大的候选集并且重复扫描数据库.针对这一问题,给出一种基于频繁模式树的最大频繁项目集挖掘算法FP-MFIA,该算法利用频繁模式树对最大频繁项目集进行检索,通过位图建树的方法有效的减少了扫描数据库的次数,从而节省了CPU的执行时间.另外,此算法运用独特的最大频繁项目集判断策略,同时运用投影技术进行超集检测,提高了遍历的效率,实验结果表明该算法是快速有效的.  相似文献   

4.
快速挖掘全局最大频繁项目集   总被引:18,自引:1,他引:18       下载免费PDF全文
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.现行可用的最大频繁项目集挖掘算法大多基于单机环境,针对分布式环境下的全局最大频繁项目集挖掘尚不多见.若将基于单机环境的最大频繁项目集挖掘算法运用于分布式环境,或运用分布式环境下的全局频繁项目集挖掘算法来挖掘全局最大频繁项目集,均会产生大量的候选频繁项目集,且网络通信代价高.为此,提出了快速挖掘全局最大频繁项目集算法FMGMFI(fast mining global maximum frequent itemsets),该算法采用FP-tree存储结构,可方便地从各局部FP-tree的相关路径中得到项目集的频度,同时采用自顶向下和自底向上的双向搜索策略,可有效地降低网络通信代价.实验结果表明,FMGMF算法是有效、可行的.  相似文献   

5.
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。  相似文献   

6.
针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法--FP-MFIA。该算法根据FP-tree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FP-MFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI)的2倍以上,说明FP-MFIA在候选集维数较高的时候优势明显。  相似文献   

7.
在数据挖掘研究中,频繁闭项目集挖掘成为重要的研究方向.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.针对无共享体系结构数据水平分布的情况,提出了一种分布式快速挖掘全局频繁闭项目集增量式更新算法,算法通过对各节点候选频繁项目集进行预处理,有效地降低网络通信量,提高全局频繁闭项目集挖掘算法的效率,该算法充分利用前次挖掘结果来发现新的全局频繁闭项目集,具有较高的效率.理论分析和实验结果表明算法是有效的.  相似文献   

8.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.在经典Apriori算法基础上给出了基于SQL的Apriori算法.对Web日志挖掘进行数据预处理的基础上,利用算法挖掘最大频繁访问页面集.实验结果表明算法的效率较好,并有助于促进网站的建设.  相似文献   

9.
结合自底向上与自顶向下的搜索策略,提出一种快速发现最大频繁项目集的算法.该算法利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了候选最大频繁项目集的数量,缩小了搜索空间,提高了算法的效率.算法分析和实验表明,该算法是一种有效、快速的算法.  相似文献   

10.
一种基于FP-tree的最大频繁项目集挖掘算法   总被引:7,自引:0,他引:7  
刘乃丽  李玉忱  马磊 《计算机应用》2005,25(5):998-1000
挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘最大频繁项目集是挖掘关联规则中的关键问题之一,以前的许多挖掘最大频繁项目集算法是先生成候选,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。文中改进了FP 树结构,提出了一种基于FP tree的快速挖掘最大频繁项目集的算法DMFIA 1,该算法不需要生成最大频繁候选项目集,比DMFIA算法挖掘最大频繁项目集的效率更高。改进的FP 树是单向的,每个结点只保留指向父结点的指针,这大约节省了三分之一的树空间。  相似文献   

11.
杨君锐 《计算机工程》2004,30(14):116-118
关联规则是当前数据挖掘研究的主要领域之一。发现频繁项目集是关联规则数据开采中的关键问题。该文提出了一种基于最夫频繁项目集的逆向开采算法IDMFI(inverse discovery maximum frequent itemsets),该算法利用频繁项目集的有关特性作为启发信息,采用逆向(即自顶向下)的搜索策略,能够大大减少候选项目集的生成,从而显著地提高了开采效率。  相似文献   

12.
对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。  相似文献   

13.
快速开采最大频繁项目集   总被引:98,自引:3,他引:95  
路松锋  卢正鼎 《软件学报》2001,12(2):293-297
发现最大频繁项目集是多种数据开采应用中的关键问题,提出一种快速开采最大频繁项目集的算法DMFI(discovery maximum frequent itemsets), 该算法把自底向上和自顶向下的搜索策略进行了合并。通过其独特的排序方法和有效的剪枝策略,大大减少了修选项目集的生成,从而显著地降低了CUP时间。  相似文献   

14.
在稠密型数据库中,现有最大频繁项集挖掘算法效率低、耗时长,挖掘结果模糊,不利于用户使用。为此,提出一种项约束先过滤的最大频繁项集挖掘算法——VCM。利用项包含约束过滤数据库,使用垂直数据表示数据集,采用深度优先的挖掘策略对数据库进行最大频繁相集的挖掘。实验结果表明,该算法快速有效,尤其在挖掘具有长模式的稠密数据库时优势明显。  相似文献   

15.
基于FP-Tree的最大频繁项目集挖掘及更新算法   总被引:105,自引:2,他引:105       下载免费PDF全文
宋余庆  朱玉全  孙志挥  陈耿 《软件学报》2003,14(9):1586-1592
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用.  相似文献   

16.
关联规则挖掘的主要性能由发现频繁项目集决定.频繁项目集是最大频繁项目集的子集,因而找到所有最大频繁项目集是问题的关键.本文使用位串数组的数据结构提出了一种挖掘最大频繁项目集的算法MMFI.该算法通过位串与操作直接得到最大频繁项目集.  相似文献   

17.
基于FP树的全局最大频繁项集挖掘算法   总被引:12,自引:1,他引:12  
挖掘最大频繁项集是多种数据挖掘应用了更新最大频繁候选项集集合,需要反复地扫描整个数据库,而且大部分算法是单机算法,全局最大频繁项集挖掘算法并不多见.为此提出MGMF算法,该算法利用FP-树结构,类似FP-树挖掘方法,一遍就可以挖掘出所有的最大频繁项集,并且超集检测非常简单、快捷.另外MGMF算法采用了分布式PDDM算法播报消息的思想,具有很好的拓展性和并行性.实验证明MGMF算法是有效可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号