首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于CF树的k-medoids聚类算法*
引用本文:曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法*[J].计算机应用研究,2011,28(9):3260-3263.
作者姓名:曹丹阳  杨炳儒  李广原  刘英华
作者单位:1. 北京科技大学信息工程学院,北京 100083;北方工业大学信息工程学院,北京 100144
2. 北京科技大学信息工程学院,北京,100083
基金项目:北京市科技计划专项课题;国家自然科学基金资助项目(60875029,51075423);北京市属市管高等学校人才强教计划资助项目(PHR20100509)
摘    要:当存在噪声和离群点时,k-medoids算法具有较好的鲁棒性,但是对于大数据集,算法的计算代价比较高。CF树是Birch算法中常用的一种结构,对于大数据集的聚类有较好的可伸缩性,但是对于非球形的数据,聚类结果较差。因此,在两种算法的基础上,提出一种基于CF树的k-medoids算法,先用数据集构建CF树,形成微簇,改进了欧式距离计算式,最后使用k-medoids算法对微簇进行聚类。当数据点较多时,改进算法比k-medoids算法运行速度快了近2倍。实验表明,改进算法具有较高的性能和可伸缩性。

关 键 词:聚类    k-中心点    CF树    微簇

k-medoids clustering algorithm based on CF tree
CAO Dan-yang,YANG Bing-ru,LI Guang-yuan,LIU Ying-hua.k-medoids clustering algorithm based on CF tree[J].Application Research of Computers,2011,28(9):3260-3263.
Authors:CAO Dan-yang  YANG Bing-ru  LI Guang-yuan  LIU Ying-hua
Affiliation:(1. College of Information Engineering, University of Science & Technology Beijing, Beijing 100083, China; 2. College of Information Engineering, North China University of Technology, Beijing 100144, China)
Abstract:k-medoids algorithm has better robustness when the dataset exist noise and outlier points.However,computational cost of k-medoids algorithm is higher on big datasets.CF tree is a common structure in Birch algorithm,and it has better sca-lability on the clustering of big datasets.But CF tree has poor clustering results on the non-spherical data.Therefore,this paper presented a k-medoids algorithm based on CF tree on the basis of the two algorithms.First,the improved algorithm constructed CF tree by the data ...
Keywords:clustering  k-medoids  CF-tree  micro-cluster  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号