基于Spark的并行DBSCAN算法的设计与实现期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Spark的并行DBSCAN算法的设计与实现

作者姓名：	黄明吉张倩

作者单位：	北京科技大学机械工程学院北京100083,北京科技大学机械工程学院北京100083

基金项目：	本文受北京市自然科学基金(2112011),中央高校基本科研业务费基金(2050205)资助

摘要：	随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。
关键词：	Spark 并行DBSCAN算法 DAG 并行化策略