基于Spark的并行FP-Growth算法优化与实现 OPTIMIZATION AND IMPLEMENTATION OF PARALLEL FP-GROWTH ALGORITHM BASED ON SPARK期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Spark的并行FP-Growth算法优化与实现

作者单位：	;1.安徽工业大学管理科学与工程学院

摘要：	频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。
关键词：	频繁模式挖掘 FP-Growth算法分布式计算 Spark框架
OPTIMIZATION AND IMPLEMENTATION OF PARALLEL FP-GROWTH ALGORITHM BASED ON SPARK

Abstract:

Keywords: