基于MapReduce的K-means聚类算法的优化 |
| |
引用本文: | 孙玉强,李媛媛,陆勇. 基于MapReduce的K-means聚类算法的优化[J]. 计算机测量与控制, 2016, 24(7): 272-275, 279 |
| |
作者姓名: | 孙玉强 李媛媛 陆勇 |
| |
作者单位: | 常州大学 信息科学与工程学院,江苏 常州 213164,常州大学 信息科学与工程学院,江苏 常州 213164,常州大学 信息科学与工程学院,江苏 常州 213164 |
| |
基金项目: | 国家自然科学基金项目(11271057,6);江苏省自然科学基金项目(BK2009535)。 |
| |
摘 要: | 针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷,提出了一种基于MapReduce的改进K-means聚类算法。该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景;文中对该改进算法和传统聚类算法进行了比较,比较结果证明其性能优于后者;这表明该改进算法降低了对初始聚类中心的依赖,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间,而且在处理海量数据时表现出较大的性能优势。
|
关 键 词: | K均值算法 抽样 Canopy算法 最大最小距离法 [HS(2]Optimization of K-means Clustering Algorithm Based on MapReduce |
收稿时间: | 2016-01-19 |
修稿时间: | 2016-02-29 |
Optimization of K-means Clustering Algorithm Based on MapReduce |
| |
Abstract: | |
| |
Keywords: | |
|
| 点击此处可从《计算机测量与控制》浏览原始摘要信息 |
|
点击此处可从《计算机测量与控制》下载免费的PDF全文 |
|