基于Hadoop的K-means聚类算法的实现<span class="you"></span> 期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Hadoop的K-means聚类算法的实现

引用本文：	周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].微机发展,2013(7):18-21.

作者姓名：	周婷张君瑛罗成

作者单位：	同济大学电子与信息工程学院;上海陈家镇建设发展有限公司

基金项目：	国家科技计划课题(2012BAD35B01);上海市科技创新计划(11DZ1501703)

摘要：	文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法。其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性。
关键词：	数据挖掘 K-means算法 Hadoop MapReduce
本文献已被 CNKI 等数据库收录！