基于Flink框架的K-means算法优化及并行计算策略 |
| |
引用本文: | 李召鑫,孟祥印,肖世德,胡锴沣,赖焕杰.基于Flink框架的K-means算法优化及并行计算策略[J].计算机与数字工程,2023(10):2231-2235. |
| |
作者姓名: | 李召鑫 孟祥印 肖世德 胡锴沣 赖焕杰 |
| |
作者单位: | 西南交通大学机械工程学院 |
| |
摘 要: | K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。
|
关 键 词: | Flink K-means算法 Canopy算法 并行化 |
|
|