共查询到19条相似文献,搜索用时 93 毫秒
1.
基于云计算的并行K-means聚类算法研究 总被引:2,自引:0,他引:2
目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。 相似文献
2.
针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDk-means (Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统K-means算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能. 相似文献
3.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。 相似文献
4.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。 相似文献
5.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。 相似文献
6.
随着数据量的不断增加,传统的数据处理方法已经无法满足现代大数据处理的需求。近年来,云计算作为一种新型的数据处理方法逐渐被广泛采用。在云计算背景下,K-means聚类算法是一个重要的数据挖掘工具,拥有广泛的应用场景,包括图像处理、文本分析等。但是,当数据量大到一定程度时,传统的K-means聚类算法存在计算效率低和内存占用过大的问题。文章介绍了一种基于云计算的并行K-means聚类算法设计方案,介绍了云计算的概念、云平台技术的应用、云计算平台对并行计算的支持。实验结果表明,K-means算法在处理大规模数据集时的运行时间较长,而采用云计算平台进行并行化计算可以有效提高算法的运行效率。 相似文献
7.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。 相似文献
8.
K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapReduce框架实现K-means时,采用多次随机抽样,通过计算密度、距离与平方误差等方法,最终选取较优的初始聚类中心,并在迭代中采用新的中心点计算方法。实验结果证明,改进后的算法具有较好的稳定性、准确性和加速比。 相似文献
9.
10.
随着互联网时代的到来,每天都有大量的历史数据堆积,这些数据含有巨大的价值,然而由于没有合适的分析方法,它们并没有被充分的利用;传统的K-means算法具有复杂度低,计算速度快,对硬件要求低等特点,使其在聚类分析中被广泛使用,但是传统的K-means算法受初始聚类中心选择的影响而导致数据聚类结果不准确;本文基于传统的K-means算法,首先在选取初始聚类中心前,通过PSO方法对初始聚类中心进行优化,然后选取初始聚类中心,接着用权重法优化样本之间的距离,最后运用改进后的K-means算法对某电商平台中的巧克力商品进行聚类实验。实验结果表明,在聚类数目相同的前提下,改进后的算法比传统的K-means算法在准确性上有较大的提高。 相似文献
11.
加速大数据聚类K-means算法的改进 总被引:1,自引:0,他引:1
为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。 相似文献
12.
传统的数据挖掘模式和方法已经不能适应如今数据的快速增长,分析了将传统数据挖掘算法与云计算技术相结合的实现过程。通过研究云计算环境下海量数据挖掘的三层模型,发现该模型最大的优点是数据挖掘速度快、可靠性高,而且随着数据量的增加,该模型的优势也愈发明显。 相似文献
13.
基于改进蚁群算法的云计算任务调度 总被引:1,自引:0,他引:1
利用云中资源进行高效任务调度是保证云计算系统可靠运行的关键问题。提出一种基于改进蚁群优化算法的任务调度方法。算法采用蚂蚁系统的伪随机比例规则进行寻优,防止算法过快收敛到局部最优解,同时结合排序蚂蚁系统和最大最小蚂蚁系统的设计思想完成信息素更新,有效求解优化问题。实验结果显示,该算法具有很好的寻优能力,提高了云资源的利用率。 相似文献
14.
针对K-means算法全局搜索能力的不足,提出了一种基于改进模拟退火的优化K-means(SA-KM)的聚类算法,该算法克服了K-means聚类算法对初始聚类中心选择敏感问题。为了提高SA-KM算法的聚类划分质量,提出了一种用于评价聚类结果的评价函数,该函数更为准确地反映类内距离和类间距离。仿真结果表明使用该算法在进行入侵检测时,能够检测出多种类型的入侵行为,能够保持较高的网络入侵检测率和较低网络入侵的误报率。 相似文献
15.
16.
电力负荷坏数据对电网具有严重的破坏性,为了提高对电力负荷坏数据的检测能力,提出基于云计算的多因素电力负荷坏数据自动检测方法。采用云计算模型进行多因素电力负荷坏数据的分布式重组和集成运算,构建多因素电力负荷坏数据的云网格分布模型,在云网格空间中采用主成分特征分析方法进行多因素电力负荷坏数据特征检测,在双极型直流配电网中实现对多因素电力负荷坏数据的共模分量计算,提取电力负荷坏数据的能量谱特征量,根据负荷用电特性、潮流分布及其容量等参数,实现对多因素电力负荷坏数据的特征检测。仿真结果表明,采用该方法进行多因素电力负荷坏数据检测的自动性较好,检测准确率较高。 相似文献
17.
针对已有的延迟调度算法存在的两个问题,即建立在节点会很快空闲的理论假设下有一定限制,当节点不会很快空闲时算法性能严重下降和基于静态的等待时间阈值不能适应云计算数据中心动态的负载变化及不同用户作业的需求,提出了一种基于动态等待时间阈值的延迟调度算法(dynamic waiting time delay scheduling,DWTDS)。该算法通过给无本地数据节点设置节点最大等待时间,以适应节点不会很快空闲的情况;通过分析数据中心各动态参数,根据概率模型调整作业的等待时间阈值。实验验证该算法在响应时间及负载均衡性方面优于已有的延迟调度算法。 相似文献
18.