首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hadoop的K-means聚类算法的实现
作者姓名:周婷  张君瑛  罗成
作者单位:同济大学电子与信息工程学院;上海陈家镇建设发展有限公司
基金项目:国家科技计划课题(2012BAD35B01);上海市科技创新计划(11DZ1501703)
摘    要:文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法。其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性。

关 键 词:数据挖掘  K-means算法  Hadoop  MapReduce
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号