首页 | 本学科首页   官方微博 | 高级检索  
     

加速大数据聚类K-means算法的改进
引用本文:韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015(5).
作者姓名:韩岩  李晓
作者单位:1. 中国科学院新疆理化技术研究所,新疆 乌鲁木齐830011; 中国科学院大学 计算机与控制学院,北京100049
2. 中国科学院新疆理化技术研究所,新疆 乌鲁木齐,830011
基金项目:中国科学院西部之光人才培养计划基金项目
摘    要:为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。

关 键 词:K-均值算法  随机抽样  最大最小距离法  映射归约  并行化

Improved accelerating large data K-means clustering algorithm
HAN Yan,LI Xiao.Improved accelerating large data K-means clustering algorithm[J].Computer Engineering and Design,2015(5).
Authors:HAN Yan  LI Xiao
Abstract:
Keywords:K-means algorithm  random sampling  max-min distance method  MapReduce  parallelization
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号