首页 | 本学科首页   官方微博 | 高级检索  
     

基于节点抽样的分布式二阶段聚类方法
作者姓名:张曼静  何玉林  李旭  黄哲学
作者单位:1.人工智能与数字经济广东省实验室(深圳);2.深圳大学计算机与软件学院
基金项目:深圳市科技重大专项项目 202302D074;广东省自然科学基金面上项目 2023A1515011667;深圳市基础研究面上项目 JCYJ20210324093609026;广东省基础与应用基础研究基金粤深联合基金重点项目 2023B1515120020 ~~;
摘    要:针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后将各节点选定的样本数据传输至中央节点。之后,在中央节点上,对合并的样本数据进行进一步的聚类分析,并将样本聚类的结果传回各个本地节点。最后,各本地节点结合自身的局部聚类结果和中央节点的样本聚类结果,完成最终的聚类标签统一。通过以上流程,所提方法实现了对集中式聚类算法的分布式改造,能够快速一致地完成对全局数据的聚类分析。理论分析和数值实验均表明,与传统的全量数据集中式聚类方法相比,二阶段聚类方法有效地结合了并行处理的高效性和集成分析的准确性,在保证聚类质量的前提下能够显著降低计算资源的消耗,是一种可行的大数据聚类分布式解决方案。

关 键 词:大数据聚类  分布式计算  节点抽样  并行计算  二阶段聚类  
收稿时间:2024-08-06
修稿时间:2024-10-08
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号