首页 | 本学科首页   官方微博 | 高级检索  
     

面向大数据处理的并行优化抽样聚类K-means算法
作者姓名:周润物  李智勇  陈少淼  陈京  李仁发
作者单位:湖南大学 信息科学与工程学院, 长沙 410082
基金项目:国家自然科学基金资助项目(61173107);国家863计划项目(2012AA01A301-01)。
摘    要:针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。

关 键 词:大数据  K-均值  概率抽样  欧氏距离  聚类精度  
收稿时间:2015-08-29
修稿时间:2015-09-14
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号