首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。  相似文献   

2.
《计算机工程》2018,(4):35-40
针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。  相似文献   

3.
为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。  相似文献   

4.
针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷,提出了一种基于MapReduce的改进K-means聚类算法。该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景;文中对该改进算法和传统聚类算法进行了比较,比较结果证明其性能优于后者;这表明该改进算法降低了对初始聚类中心的依赖,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间,而且在处理海量数据时表现出较大的性能优势。  相似文献   

5.
传统聚类算法K-Medoids对初始点的选择具有随机性,容易产生局部最优解;替换聚类中心时采用的全局顺序替换策略降低了算法的执行效率;同时难以适应海量数据的运算。针对上述问题,提出了一种云环境下的改进K-Medoids算法,该改进算法结合密度法和最大最小原则得到优化的聚类中心,并在Canopy区域内对中心点进行替换,再采用优化的准则函数,最后利用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展。实验结果表明,该改进算法与传统算法相比对初始中心的依赖降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。  相似文献   

6.
张珂嘉  黄树成 《计算机与数字工程》2021,49(10):1963-1966,2047
传统的K-means算法存在初始质心敏感、需要人为指定K个数等问题,可以通过融合Canopy算法在一定程度上缓解,但是仍然存在抗噪能力弱、质心选择盲目、运算时间长等问题.论文提出了一种改进算法,在抗噪性、初始质心选择、运算过程三方面,对Canopy-K-means算法进行优化.该算法采用了剪枝、"最大最小规则"、相似度计算等策略来实现算法目标.实验数据表明,改进后的Canopy-K-means算法对比传统的Canopy-K-means算法、K-means算法均具有更高的检测率、更低的误报率.  相似文献   

7.
《微型机与应用》2017,(18):49-51
针对模糊聚类算法在运算大数据量时性能差的问题,提出基于Hadoop分布式平台的改进算法进行图像修复。对于受损图像信息,首先将Canopy算法和模糊聚类相结合在Hadoop平台上进行并行化,然后进行字典训练获得修复图像。实验结果表明,该算法在均方误差和峰值信噪比上均优于改进前的图像修复算法,提高了图像修复质量并且减少了算法的运行时间,适合修复海量图像。  相似文献   

8.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

9.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

10.
随着数据的海量增长,数据聚类算法的研究面临着海量数据挖掘和处理的挑战;针对K-means聚类算法对初始聚类中心的依赖性太强、全局搜索能力也差等缺点,将一种改进的人工蜂群算法与K-means算法相结合,提出了ABC_Kmeans聚类算法,以提高聚类的性能;为了提高聚类算法处理海量数据的能力,采用MapReduce模型对ABC_Kmeans进行并行化处理,分别设计了Map、Combine和Reduce函数;通过在多个海量数据集上进行实验,表明ABC_Kmeans算法的并行化设计具有良好的加速比和扩展性,适用于当今海量数据的挖掘和处理。  相似文献   

11.
随着互联网数据的快速增长,原始的K-means算法已经不足以应对大规模数据的聚类需求;为此,提出一种改进的Canopy-K-means聚类算法;首先面对Canopy算法中心点随机选取的不足,引入“最大最小原则”优化Canopy中心点的选取;接着借助三角不等式定理对K-means算法进行优化,减少冗余的距离计算,加快算法的收敛速度;最后结合MapReduce框架并行化实现改进的Canopy-K-means算法;基于构建的微博数据集,对优化后的Canopy-K-means算法进行测试;试验结果表明:对不同数据规模的微博数据集,优化后算法的准确率较K-means算法提高了约15%,较原始的Canopy-K-means算法提高了约7%,算法的执行效率和扩展性也有较大提升。  相似文献   

12.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDC_Bisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDC_Bisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

13.
基于遗传算法对支持向量机模型中参数优化   总被引:3,自引:0,他引:3  
支持向量机是基于统计学习理论的结构风险最小化原理基础上提出来的一种学习算法,其在理论上保证了模型的最大泛化能力.针对支持向量机结构参数的选取在没有理论支持,选取又比较困难的情况下,对影响模型分类能力的相关参数进行了研究,提出了一种基于遗传算法和十折交叉检验相结合的遗传支持向量机(GA-SVM)算法,利用遗传算法的全局搜索特性得到支持向量机(SVM)的最优参数值,并用算例表明了此算法有效提高了分类的精度和效率.  相似文献   

14.
考虑到行驶工况对具有多个动力源的PHEV燃油经济性的显著影响,提出一种基于K-means++工况识别的能量管理策略。以ADVISOR中30种标准行驶工况构建组合工况,在工况片段划分与工况识别周期选取的基础上,结合K-means++聚类算法得到四种聚类结果,分别对应拥堵、城市、郊区以及高速四种典型行驶工况。建立发动机油耗与电机电能之和的整车能耗成本数学模型,采用极小值原理分别求解出四种典型工况下对应的发动机与驱动电机最优功率分配方式。对一段随机行驶工况进行聚类、仿真分析,结果表明,所提控制策略能有效识别随机工况,根据不同识别结果分配动力源间能量与功率,进一步提升了整车燃油经济性。  相似文献   

15.
针对遗传算法在最大子团求解中保持群体多样性能力不足、早熟、耗时长、成功率低等缺陷,利用随机抽样方法对交叉操作进行重新设计,结合免疫机理定义染色体浓度,设计克隆选择策略,提出了求解最大子团问题的随机抽样免疫遗传算法。用仿真算例说明了新算法在解的质量、收敛速度等各项指标上均有提高,且不比DLS-MC、QUALEX等经典搜索算法差,对某些算例还得到了更好解。  相似文献   

16.
一种改进人工蜂群的K-medoids聚类算法   总被引:1,自引:0,他引:1  
针对传统K-medoids聚类算法初始聚类中心选择较敏感、聚类效率和精度较低、全局搜索能力较差以及传统蜂群算法初始蜂群和搜索步长随机选取等缺点,提出了一种基于粒子和最大最小距离法初始化蜂群和随着迭代次数增加动态调整搜索步长的人工蜂群算法,将改进的人工蜂群进一步优化K-medoids,以提高聚类算法的性能。实验结果表明:该算法降低了对噪声的敏感程度,具有较高的效率和准确率,较强的稳定性。  相似文献   

17.
初始聚类中心的随机选择,根据主观经验确定类簇数等问题时常伴随着原始K-means算法。为了攻克以上问题,改进算法采用峰值法以及融合了K近邻算法的密度峰值算法逐一调整。通过在UCI数据集上测试及与原始K-means算法、最大最小距离距离算法在准确率、稳定性和处理数据速率方面的比较,其中最为突出的是,改进算法的准确率达到了96%以上。  相似文献   

18.
高斯-牛顿法在基于能量的目标定位中的运用   总被引:1,自引:0,他引:1       下载免费PDF全文
将基于能量的最大似然法的目标定位问题转化为求解非线性最小二乘问题,并引入高斯-牛顿法来求解目标函数最小值,通过分析目标函数的特点,提出了能量法定位中高斯牛顿迭代的初始值和步长的选取原则,防止了迭代算法进入局部最小。这种算法在保证搜索法的定位精度的前提下,提高了定位速度,实现了精度与速度的结合。  相似文献   

19.
遗传算法是一种基于生物选择与遗传机制所形成的一种全局优化、随机搜索算法,对处理一些传统搜索算法解决有难度的复杂问题比较适合,具有巨大发展潜力。论文首先介绍了遗传算法的基本原理以及它的主要特点和性质,重点叙述了基于遗传算法的图像分割方法,并通过应用遗传算法选取合适的阈值,进而采用最大熵原则对人体肝脏CT图像进行了分割算法处理,得到图像分割处理的实验结果,并对实验结果进行了分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号