基于Spark的并行DBSCAN算法的设计与实现 |
| |
作者姓名: | 黄明吉 张倩 |
| |
作者单位: | 北京科技大学机械工程学院 北京100083,北京科技大学机械工程学院 北京100083 |
| |
基金项目: | 本文受北京市自然科学基金(2112011),中央高校基本科研业务费基金(2050205)资助 |
| |
摘 要: | 随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。
|
关 键 词: | Spark 并行DBSCAN算法 DAG 并行化策略 |
|
|