首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
本文提出一种基于ESEquivPS(扩展支持度相等性剪枝策略)的封闭频繁项集挖掘算法ECFIMA。该算法采用深度优先和广度优先相结合的策略访问搜索空间,使用垂直位图向量格式存储表示项集和事务数据库,同时利用基本剪枝策略、相等性剪枝策略、扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2进行候选空间剪枝,并采用多种不同特性的测试数据集进行实验。实验结果表明,ECFIMA算法是一种高效的封闭频繁项集挖掘算法,在多种测试数据集上性能都优于CHARM算法,尤其是在拥有大量长的封闭频繁项集的测试数据集上,效率比CHARM算法提高约2~3倍。  相似文献   

2.
论述了频繁项集数据挖掘算法,并采用自底向上和自顶向下遍历搜索分类方法,对已有的频繁项集挖掘算法进行了分析和比较。  相似文献   

3.
分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI—Miner(The Miner Basedon Depth—First Searching for Mining Maximal Frequent Itemsets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。  相似文献   

4.
挖掘最大频繁项集的并行算法   总被引:1,自引:1,他引:1  
频繁项集的挖掘是数据挖掘的核心内容。本文提出挖掘最大频繁项集的并行算法P-MinMax,它采用数据库的垂直表示和基于前缀关系的等价类划分,利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和有选择地复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡。分析和实验表明,  相似文献   

5.
快速挖掘频繁项集的并行算法   总被引:3,自引:0,他引:3  
何波  王华秋  刘贞  王越 《计算机应用》2006,26(2):391-0392
传统的挖掘频繁项集的并行算法存在数据偏移、通信量大、同步次数较多和扫描数据库次数较多等问题。针对这些问题,提出了一种快速挖掘频繁项集的并行算法(FPMFI)。FPMFI算法让各计算机节点独立地计算局部频繁项集,然后与中心节点交互实现数据汇总,最终获得全局频繁项集。理论分析和实验结果表明FPMFI算法是有效的。  相似文献   

6.
本文提出一种新的搜索最大频繁项集的算法。该算法使用多层扩展深度优先搜索方法,结合有效的前瞻剪枝策略,明显加速了最大频繁项集的生成,从而显著地降低了CPU时间。  相似文献   

7.
交集剪枝法挖掘最大频繁项集   总被引:1,自引:0,他引:1       下载免费PDF全文
发现最大频繁项目集是数据挖掘应用中的关键问题;为寻求避免生成大量的候选项集,或生成频繁模式树的挖掘算法,提出一种从事务项集对应的最大频繁项集求全部属性项集的最大频繁项集的新算法IPA(Intersection Pruning Algorithm)。该算法通过交集剪枝实现自顶向下和自底向上的搜索最大频繁项集,并使用属性项的分布数据和已生成的交集等多种信息来减少求交集的次数;该算法最多只用求(1-最小支持度)×|D|+1个事务项集和其他事务项集的交集,从而可有效降低算法的时间复杂度;实验表明该算法有效可行,并且该算法易于实现。  相似文献   

8.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

9.
一种挖掘最大频繁项集的深度优先算法   总被引:7,自引:0,他引:7  
最大频繁项集挖掘是许多数据挖掘应用中的重要问题.提出一种新的深度优先搜索最大频繁项集的算法.该算法采用位图数据格式,结合了流行的各种有效剪枝技术,并使用局部最大频繁项集来进行高效的超集存在判断,明显地加速了最大频繁项集的生成,从而降低了CPU时间.  相似文献   

10.
数据流闭频繁项集挖掘算法得到了广泛的研究,其中一个典型的工作就是NewMomen、算法。针对New- Moment算法存在搜索空间大而造成算法时间效率低的问题,提出了一种改进的数据流闭频繁项集挖掘算法A-Ncw- Moment。它设计了一个二进制位表示项目与扩展的频繁项目列表相结合的数据结构,来记录数据流信息及闭频繁项 集。在窗体初始阶段,首先挖掘频繁1一项集所产生的支持度为最大的最长闭频繁项集,接着提出新的“不需扩展策略” 和“向下扩展策略”来避免生成大量中间结果,快速发现其余闭频繁项集,达到极大缩小搜索空间的目的。在窗体滑动 阶段,提出“动态不频繁剪枝策略”来从已生成的闭频繁项集中快速删除非闭频繁项集,并提出“动态不搜索策略”来动 态维护所有闭频繁项集的生成,以降低闭频繁项集的维护代价,提高算法的效率。理论分析与实验结果表明,A-New- Moment算法具有较好的性能。  相似文献   

11.
多约束下的频繁项集挖掘   总被引:1,自引:0,他引:1  
贾磊  裴仁清 《计算机工程与应用》2003,39(31):184-185,197
为了要从大量的频繁项集中筛选出有用的规则,引入基于约束的频繁项集的挖掘,有学者已经研究了基于单调型、简洁型约束和Tough型约束的频繁项集挖掘技术,但基于多约束下频繁项集挖掘问题还没有得到解决。论文就是基于这个问题,通过对构造的包含有多约束的算式的研究,确定了在什么情况下多约束能满足单调或反单调的条件。这不但使多约束能够融入到Apriori算法中去,而且提高了多约束条件下候选频繁项集检验的速度和效率。  相似文献   

12.
一种动态的频繁项集挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于无向项集图的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

13.
频繁闭合项目集的并行挖掘算法研究   总被引:2,自引:1,他引:2  
缪裕青 《计算机科学》2004,31(5):166-168
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。  相似文献   

14.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

15.
频繁项集挖掘算法综述   总被引:4,自引:0,他引:4  
该文基于频繁项集挖掘算法的研究现状,采用自底向上遍历搜索、自顶向下遍历搜索和混合遍历搜索的分类方法,对现有的频繁项集挖掘算法进行归纳分类,分析和比较了各类别中具有代表性的挖掘算法,总结每种算法各方面的特性.同时,对一些特殊的频繁项集挖掘算法也作了简单介绍.旨在使读者全面掌握频繁项集挖掘算法目前的研究水平,便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,也便于使用者在应用时对算法的选择和使用.  相似文献   

16.
数据流具有流动性、连续性以及项分布不均衡性等特点,挖掘数据流中频繁项集是一项意义重大且具有挑战性的工作。提出一种均衡时空挖掘数据流中频繁项集算法—Bala_ Tree, Bala_ Tree实现一遍扫描数据流、快速簇更新、周期树结构重构以及基于经典算法挖掘频繁项集。实验表明,此算法能快速扫描和更新数据,合理利用内存以及精确获得频繁项集,Ba1a_Tree算法优于其他同类算法。  相似文献   

17.
频繁闭项目集挖掘是数据挖掘研究中的一个重要研究课题.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.为此,本文提出了一种快速挖掘全局频繁闭项目集算法,并对其更新问题进行了研究;提出了一种相应的频繁闭项目集增量式更新算法,该算法将充分利用先前的挖掘结果来节省发现新的全局频繁闭项目集的时间开销.实验结果表明算法是有效的.  相似文献   

18.
传统挖掘算法不适用于挖掘高维稀疏数据集.提出了一种针对高维稀疏数据的频繁项集挖掘算法FIHS.FIHS引入了一种新的数据结构用来存储频繁项集,该结构不但可以减少存储空间,而且可以降低计数代价.该算法只需扫描一次数据集,通过优化连接剪枝操作避免产生非频繁的候选项集,基于K-频繁项集使用"与"、"或"操作产生K+1-频繁项...  相似文献   

19.
周明  李宏 《计算机工程》2007,33(2):74-76
传统频繁项集挖掘算法在处理稠密或长数据集(如基因表达数据集)时效率低且产生大量冗余模式,为解决这些问题一些学者提出了闭合模式的概念和挖掘闭合模式的算法,研究证明挖掘闭合模式可以显著减少项集数量并消除大量冗余模式。该文针对生物数据特点提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法是正确有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号