首页 | 本学科首页   官方微博 | 高级检索  
     

二分K均值聚类算法优化及并行化研究
引用本文:张军伟,王念滨,黄少滨,蔺世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25.
作者姓名:张军伟  王念滨  黄少滨  蔺世明
作者单位:1. 哈尔滨工程大学计算机科学与技术学院,哈尔滨,150001
2. 哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
基金项目:国家自然科学基金资助项目(60973028); 国家科技支撑计划基金资助项目(2009BAH42B02)
摘    要:二分K均值聚类算法在二分聚类过程中的初始质心选取速度方面存在不足。为此,提出以极大距离点作为二分聚类初始质心的思想,提升算法的运行速度。研究如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分的策略,对算法进行并行化处理。实验结果表明,改进后的算法能获得比较理想的加速比和较高的使用效率。

关 键 词:数据挖掘  聚类算法  二分K均值  并行化  群集系统
收稿时间:2011-03-18

Research on Bisecting K-Means Clustering Algorithm Optimization and Parallelism
ZHANG Jun-wei,WANG Nian-bin,HUANG Shao-bin,MAN Shi-ming.Research on Bisecting K-Means Clustering Algorithm Optimization and Parallelism[J].Computer Engineering,2011,37(17):23-25.
Authors:ZHANG Jun-wei  WANG Nian-bin  HUANG Shao-bin  MAN Shi-ming
Affiliation:ZHANG Jun-wei1,WANG Nian-bin1,HUANG Shao-bin1,MAN Shi-ming2(1.College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China,2.College of Computer Science and Technology,Harbin Institute of Technology,China)
Abstract:Considering the insufficiency of clustering speed which exists in the selecting the initial centroid of Bisecting K-Means(BKM) clustering algorithm,the idea of selecting the two patterns with distance maximum as the initial cluster centroid is implemented.An in-depth study and analysis is carried out on how to accelerate clustering in clustering system.According to the characteristics of BKM,the parallelism algorithm based on data parallelism and symmetric data-partition is put forward.Experimental results ...
Keywords:data mining  clustering algorithm  Bisecting K-Means(BKM)  parallelism  clustering system  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号