基于Hadoop的K-means聚类算法的实现 |
| |
引用本文: | 周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].微机发展,2013(7):18-21. |
| |
作者姓名: | 周婷 张君瑛 罗成 |
| |
作者单位: | 同济大学电子与信息工程学院;上海陈家镇建设发展有限公司 |
| |
基金项目: | 国家科技计划课题(2012BAD35B01);上海市科技创新计划(11DZ1501703) |
| |
摘 要: | 文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法。其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性。
|
关 键 词: | 数据挖掘 K-means算法 Hadoop MapReduce |
本文献已被 CNKI 等数据库收录! |
|