共查询到10条相似文献,搜索用时 75 毫秒
1.
不产生候选的快速投影频繁模式树挖掘算法 总被引:8,自引:0,他引:8
1.概述近年来,对事务数据库、时序数据库和各种其它类型数据库中的频繁模式挖掘的研究越来越普及。许多先前的研究都是采用Apriori或类似的候选产生—检查迭代算法,使用候选项集来找频繁项集。这些算法都基于一种重要的反单调的Apriori性质:任何非频繁的(k—1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k—1)-子集不在频繁(k—1)-项集中,则该候选也不可能是频繁的,从而可 相似文献
2.
在FP-树中挖掘频繁模式而不生成条件FP-树 总被引:33,自引:1,他引:33
FP-growth算法是目前已发表的最有效的频繁模式挖掘算法之一.然而,由于在挖掘频繁模式时需要递归地生成大量的条件FP-树,其时空效率仍然不够高.改进了FP-树结构,提出了一种基于被约束子树挖掘频繁项集的有效算法.改进的FP-树是单向的,每个结点只保留指向父结点的指针,这大约节省了三分之一的树空间.通过引入被约束子树(可以用3个很小的数组表示),算法在挖掘频繁模式时不生成条件FP-树,从而大大提高了频繁模式挖掘的时空效率.实验表明,与FP-growth算法相比,算法的挖掘速度提高了1倍以上,而所需的存储空间减少了一半.此外,随着数据库规模的增大,算法具有很好的可伸缩性.对于稠密数据集,算法也具有良好的性能. 相似文献
3.
挖掘闭合模式的高性能算法 总被引:16,自引:1,他引:16
频繁闭合模式集惟一确定频繁模式完全集并且尺寸小得多,然而挖掘频繁闭合模式仍然是时间与存储开销很大的任务.提出一种高性能算法来解决这一难题.采用复合型频繁模式树来组织频繁模式集,存储开销较小.通过集成深度与宽度优先策略,伺机选择基于数组或基于树的模式支持子集表示形式,启发式运用非过滤虚拟投影或过滤型投影,实现复合型频繁模式树的快速生成.局部和全局剪裁方法有效地缩小了搜索空间.通过树生成与剪裁代价的平衡实现时间效率与可伸缩性最大化.实验表明,该算法时间效率比其他算法高5倍到3个数量级,空间可伸缩性最佳.它可以进一步应用到无冗余关联规则发现、序列分析等许多数据挖掘问题. 相似文献
4.
通用的频繁模式挖掘算法通常产生庞大的频繁模式集,其中很多是用户不感兴趣的非目标模式。要排除这些非目标模式,用户必须进行"二次挖掘"。TFP-growth虽然生成所有最大目标频繁模式,但要从中获得目标频繁模式,还需经过"二次挖掘"。若在挖掘的早期就对非目标频繁模式的产生加以限制,则有望提高算法的效率。本文在TFP-growth和SFP-growth的基础上,提出一种目标频繁模式挖掘算法STFP-growth,通过对TFP-树的排序、根据树根结点的不同情形采用不同的建子树方法和目标频繁模式筛选方法等来提高算法的效率。STFP-growth挖掘的结果是所有满足用户需求的目标频繁模式,不需"二次挖掘"。实验表明,STFP-growth的效率高于TFP-growth,也明显优于Apriori和Eclat。 相似文献
5.
基于改进FP-树的最大模式挖掘算法 总被引:2,自引:0,他引:2
频繁模式挖掘是数据挖掘领域中的一个非常重要的分支,但是由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困难而且数量往往大得惊人,难以理解和应用。最大频繁模式(最大模式)压缩隐含了所有的频繁模式,存储所占用的空间远远小于完全集,因而最大模式挖掘具有十分重要的意义。该文改进了传统的FP-树结构并提出了一种有效的基于改进FP-树的最大模式挖掘算法IFP-M ax;通过引入后缀子树的概念,算法在挖掘过程中不用生成最大频繁模式候选集,从而大大提高了算法的时间效率和空间可伸缩性。实验表明,IFP-M ax的挖掘速度比M AFIA和GenM ax大约快一个数量级。 相似文献
6.
由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效的修剪技术和巧妙的链表组织技术,在时间和空间上均得到了优化.实验表明,HTCLOSE算法通常快于行枚举算法CARPENTER. 相似文献
7.
SFP-Max——基于排序FP-树的最大频繁模式挖掘算法 总被引:12,自引:1,他引:11
FP-growth算法是目前较高效的频繁模式挖掘算法之一,但将它用于最大频繁模式挖掘时却不能获得较高的效率.深入分析了造成低效的原因,提出了利用排序FP-树挖掘最大频繁模式的算法SFP-Max. 算法的主要思想如下:①基于排序FP-树;②利用最大频繁模式的性质,减小产生的候选最大模式的规模;③设置中间结果集,缩小检验的范围,从而减少检验候选最大模式的时间.实验表明,SFP-Max是一个高效的最大频繁模式的挖掘算法,对于测试的数据集,SFP-Max的性能多数情况下都优于MAFIA算法. 相似文献
8.
9.
多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能. 相似文献
10.
挖掘最大频繁模式的新方法 总被引:11,自引:0,他引:11
由于其内在的计算复杂性,挖掘密集型数据集的频繁模式完全集非常困难,解决方案之一是挖掘最大频繁模式集.该文在频繁模式完全集挖掘算法Opportune Project基础上,提出了挖掘最大频繁模式的新算法MOP.它采用宽度与深度优先相结合的混合搜索策略,能恰当地选择不同的支持集表示和投影方法,将闭合性剪裁和一般性剪裁相结合,并适时前窥,实现搜索与剪裁效率最优化.实验表明,MOP效率是MaxMiner的2~8倍,比MAFIA高2个数量级以上. 相似文献