加速大数据聚类K-means算法的改进 Improved accelerating large data K-means clustering algorithm期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

加速大数据聚类K-means算法的改进

引用本文：	韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015(5).

作者姓名：	韩岩李晓

作者单位：	1. 中国科学院新疆理化技术研究所，新疆乌鲁木齐830011; 中国科学院大学计算机与控制学院，北京100049 2. 中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011

基金项目：	中国科学院西部之光人才培养计划基金项目

摘要：	为有效处理大规模数据聚类的问题，提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中，基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明，无论是在单机环境还是集群环境下，该方法受初始聚类中心的影响降低，提高了聚类的准确性，减少了聚类的迭代次数，降低了聚类的时间。
关键词：	K-均值算法随机抽样最大最小距离法映射归约并行化
Improved accelerating large data K-means clustering algorithm

HAN Yan,LI Xiao.Improved accelerating large data K-means clustering algorithm[J].Computer Engineering and Design,2015(5).

Authors:	HAN Yan LI Xiao

Abstract:

Keywords:	K-means algorithm random sampling max-min distance method MapReduce parallelization
本文献已被万方数据等数据库收录！