首页 | 本学科首页   官方微博 | 高级检索  
     

分布式频繁项集挖掘算法
作者单位:;1.上海市公安局科技处
摘    要:传统的频繁项集挖掘方法具有一定的局限性。Apriori算法需要重复扫描输入数据,导致很高的I/O负载,算法性能不高;Fp-growth算法需要在内存中建立Fp-tree并根据Fp-tree挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于Spark框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于MapReduce框架的关联规则算法具有显著的优势。

关 键 词:频繁项集挖掘  分布式算法  Spark  MapReduce

A DISTRIBUTED FREQUENT ITEMSET MINING ALGORITHM
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号