首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark框架的CFSFDP改进算法
引用本文:李琪,张欣,张平康,张航.基于Spark框架的CFSFDP改进算法[J].电子科技,2019,32(5):38-44.
作者姓名:李琪  张欣  张平康  张航
作者单位:贵州大学大数据与信息工程学院,贵州贵阳,550025;贵州大学大数据与信息工程学院,贵州贵阳,550025;贵州大学大数据与信息工程学院,贵州贵阳,550025;贵州大学大数据与信息工程学院,贵州贵阳,550025
基金项目:国家国际科技合作专项项目(2014DFA00670);贵州省研究生教育教学改革重点(课题黔教研合JG字[2016]15);贵州省科技厅工业攻关项目(黔科合GY字[2010]3056)
摘    要:CFSFDP算法是一种基于密度的新型聚类算法。文中针对算法需使用决策图人工选取聚类中心点的问题,利用斜率思想找出聚类中心点与非聚类中心点间的分界点,在消除主观误差的同时实现了中心点的自动求取,并最终将算法使用Spark框架进行了并行化实现。实验结果表明,文中算法在消除人为误差的同时提升了算法效率,且并行后的算法具有良好的加速比与扩展性,适用于海量数据的聚类分析。

关 键 词:Spark  CFSFDP算法  决策图  密度峰值  聚类  并行化
收稿时间:2018-04-29

Improved CFSFDP Algorithm Based on Spark Framework
LI Qi,ZHANG Xin,ZHANG Pingkang,ZHANG Hang.Improved CFSFDP Algorithm Based on Spark Framework[J].Electronic Science and Technology,2019,32(5):38-44.
Authors:LI Qi  ZHANG Xin  ZHANG Pingkang  ZHANG Hang
Affiliation:School of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China
Abstract:CFSFDP algorithm based on density is a clustering algorithm. In order to rid dependency on artificial selection of decision graph, this paper used the idea of slope to calculate the demarcation point of clustering center points and un-clustering center points. This improvement eliminated personal equation and realized auto-calculation of center points. Parallel processing for the algorithm was conducted through the Spark framework. The experiments showed that this algorithm was applicable to clustering analysis of mass data, since it improved efficiency by eliminating personal equation and displayed great speed up ratio and extendibility after paralleling.
Keywords:Spark  CFSFDP algorithm  decision diagram  density peaks  clustering  parallel  
本文献已被 万方数据 等数据库收录!
点击此处可从《电子科技》浏览原始摘要信息
点击此处可从《电子科技》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号