共查询到19条相似文献,搜索用时 140 毫秒
1.
本文提出一种基于ESEquivPS(扩展支持度相等性剪枝策略)的封闭频繁项集挖掘算法ECFIMA。该算法采用深度优先和广度优先相结合的策略访问搜索空间,使用垂直位图向量格式存储表示项集和事务数据库,同时利用基本剪枝策略、相等性剪枝策略、扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2进行候选空间剪枝,并采用多种不同特性的测试数据集进行实验。实验结果表明,ECFIMA算法是一种高效的封闭频繁项集挖掘算法,在多种测试数据集上性能都优于CHARM算法,尤其是在拥有大量长的封闭频繁项集的测试数据集上,效率比CHARM算法提高约2~3倍。 相似文献
2.
3.
分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI—Miner(The Miner Basedon Depth—First Searching for Mining Maximal Frequent Itemsets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。 相似文献
4.
挖掘最大频繁项集的并行算法 总被引:1,自引:1,他引:1
频繁项集的挖掘是数据挖掘的核心内容。本文提出挖掘最大频繁项集的并行算法P-MinMax,它采用数据库的垂直表示和基于前缀关系的等价类划分,利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和有选择地复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡。分析和实验表明, 相似文献
5.
6.
本文提出一种新的搜索最大频繁项集的算法。该算法使用多层扩展深度优先搜索方法,结合有效的前瞻剪枝策略,明显加速了最大频繁项集的生成,从而显著地降低了CPU时间。 相似文献
7.
发现最大频繁项目集是数据挖掘应用中的关键问题;为寻求避免生成大量的候选项集,或生成频繁模式树的挖掘算法,提出一种从事务项集对应的最大频繁项集求全部属性项集的最大频繁项集的新算法IPA(Intersection Pruning Algorithm)。该算法通过交集剪枝实现自顶向下和自底向上的搜索最大频繁项集,并使用属性项的分布数据和已生成的交集等多种信息来减少求交集的次数;该算法最多只用求(1-最小支持度)×|D|+1个事务项集和其他事务项集的交集,从而可有效降低算法的时间复杂度;实验表明该算法有效可行,并且该算法易于实现。 相似文献
8.
基于频繁项集挖掘最大频繁项集和频繁闭项集 总被引:3,自引:1,他引:2
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。 相似文献
9.
一种挖掘最大频繁项集的深度优先算法 总被引:7,自引:0,他引:7
最大频繁项集挖掘是许多数据挖掘应用中的重要问题.提出一种新的深度优先搜索最大频繁项集的算法.该算法采用位图数据格式,结合了流行的各种有效剪枝技术,并使用局部最大频繁项集来进行高效的超集存在判断,明显地加速了最大频繁项集的生成,从而降低了CPU时间. 相似文献
10.
数据流闭频繁项集挖掘算法得到了广泛的研究,其中一个典型的工作就是NewMomen、算法。针对New-
Moment算法存在搜索空间大而造成算法时间效率低的问题,提出了一种改进的数据流闭频繁项集挖掘算法A-Ncw-
Moment。它设计了一个二进制位表示项目与扩展的频繁项目列表相结合的数据结构,来记录数据流信息及闭频繁项
集。在窗体初始阶段,首先挖掘频繁1一项集所产生的支持度为最大的最长闭频繁项集,接着提出新的“不需扩展策略”
和“向下扩展策略”来避免生成大量中间结果,快速发现其余闭频繁项集,达到极大缩小搜索空间的目的。在窗体滑动
阶段,提出“动态不频繁剪枝策略”来从已生成的闭频繁项集中快速删除非闭频繁项集,并提出“动态不搜索策略”来动
态维护所有闭频繁项集的生成,以降低闭频繁项集的维护代价,提高算法的效率。理论分析与实验结果表明,A-New-
Moment算法具有较好的性能。 相似文献
11.
多约束下的频繁项集挖掘 总被引:1,自引:0,他引:1
为了要从大量的频繁项集中筛选出有用的规则,引入基于约束的频繁项集的挖掘,有学者已经研究了基于单调型、简洁型约束和Tough型约束的频繁项集挖掘技术,但基于多约束下频繁项集挖掘问题还没有得到解决。论文就是基于这个问题,通过对构造的包含有多约束的算式的研究,确定了在什么情况下多约束能满足单调或反单调的条件。这不但使多约束能够融入到Apriori算法中去,而且提高了多约束条件下候选频繁项集检验的速度和效率。 相似文献
12.
13.
频繁闭合项目集的并行挖掘算法研究 总被引:2,自引:1,他引:2
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。 相似文献
14.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
15.
16.
17.
18.