首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对并行密度聚类算法在处理大数据集时存在伸缩困难、参数寻优能力不佳、并行化效率较低等问题,提出一种基于分组和重力搜索优化算法(improve gravitational search algorithm,IGSA)的并行密度聚类算法(densi-ty-based clustering algorithm based on groups and improve gravitational search,MR-GDBIGS).首先,该算法设计了基于图形的分组策略(grouping strategy based on pattern,GSP)来有效划分数据,加速邻域搜索,解决了处理大数据集时伸缩困难的问题;其次,在局部聚类中提出基于位置更新函数(position update function,PUF)的重力搜索优化算法,动态寻找局部聚类中的最优参数,提升了局部聚类的效果;最后,提出基于覆盖树的并行局部簇合并策略(cluster merging strategy by using MapReduce,MR-CTMC),在实现局部簇并行化合并的同时加快了合并局部簇的收敛速度,提升了算法整体的并行化效率.实验结果表明,MR-GDBIGS算法在处理大数据时的聚类效果更佳,且并行化性能更好.  相似文献   

2.
3.
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。  相似文献   

4.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1  
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

5.
黄学雨  向驰  陶涛 《计算机应用研究》2021,38(10):2988-2993,3024
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and im-proved density peak partition clustering algorithm,MR-IDPACA).首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing).通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果.实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升.  相似文献   

6.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

7.
模糊C均值算法(Fuzzy C-Means,FCM)是目前应用比较广泛的一种聚类算法。FCM算法的聚类质量依赖于初始聚类中心的选择并且易陷入局部极值,结合混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)较强的搜索能力,提出一种基于MapReduce的并行SFLA-FCM聚类算法。该算法利用SFLA算法的子群内模因信息传递和全局信息交换来搜索高质量的聚类中心,根据MapReduce编程模型设计算法流程,实现并行化,使其具有处理大规模数据集的能力。实验证明,并行SFLA-FCM算法提高了的搜索能力和聚类结果的精度,并且具有良好的加速比和扩展性。  相似文献   

8.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

9.
针对大数据背景下基于划分的聚类算法中存在初始中心敏感,节点间通信开销大以及集群效率低下等问题,提出了基于网格密度和局部敏感哈希函数的PBGDLSH-MR并行化聚类算法。首先,对初始数据集提出网格密度策略(GDS)获取初始中心点,有效避免了随机选取引起的初始中心敏感的问题;其次,提出基于局部敏感哈希函数的数据分区(DP-LSH)用于投射关联性较大的数据对象到同一子数据集中,得到map上的数据分区,并设计相似性度量公式(SI)对数据分区结果进行评价,从而降低了节点间的通信开销;接着设计自适应分组策略(AGS)处理数据分区中数据倾斜的问题,进而有效地提高了集群效率;最后,结合MapReduce计算模型并行挖掘簇中心,生成最终聚类结果。实验结果表明,PBGDLSH-MR算法的聚类效果更佳,同时在大数据环境下能有效地提高并行计算的效率。  相似文献   

10.
《计算机工程与科学》2017,(10):1801-1806
聚类分析是数据处理算法中常用的方法,PAM算法自提出以来便成为了最常使用的聚类算法之一。虽然传统PAM算法解决了K-Means算法在聚类过程中对脏数据敏感的问题,但是传统PAM算法存在收敛速度慢、处理大数据集效率不高等问题。针对这些问题,利用蚁群搜索机制来增强PAM算法的全局搜索能力和局部探索能力,并基于MapReduce并行编程框架提出MRACO-PAM算法来实现并行化计算,并进行实验。实验结果表明,基于MapReduce框架的并行MRACO-PAM聚类算法的收敛速度得到了改善,具备处理大规模数据的能力,而且具有良好的可扩展性。  相似文献   

11.
针对果蝇优化算法的早熟收敛问题,提出了一种新的基于细菌迁徙的自适应果蝇优化算法。该算法在运行过程中根据进化停滞步数的大小自适应地引入细菌迁徙操作,提高算法跳出局部极值的能力;并且对每个个体根据适应值大小赋予不同的自适应迁徙概率,避免了迁徙可能带来的解退化的问题。对几种经典函数的测试结果表明,新算法具有更好的全局搜索能力,在收敛速度、收敛可靠性及收敛精度上比果蝇优化算法有较大的提高。  相似文献   

12.
针对基本果蝇优化算法收敛精度不高、容易陷入局部最优和收敛速度慢的问题,提出一种基于混合策略改进的果蝇优化算法(MSFOA)。受鲸鱼捕食猎物的启发,在对个体历史最优位置的更新中,采用新的组合搜索的方法,加快果蝇搜索迭代速度;在更新后的位置公式中引入自适应权重系数,提高算法的优化精度;当达到局部收敛状态时,结合多尺度高斯变异算子解决局部最优的限制。采用6个测试函数的仿真结果表明,MSFOA算法相比其它算法具有更快的收敛速度和较高的寻优精度。  相似文献   

13.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

14.
受细菌趋化行为的启发,将细菌趋化行为中的吸引与排斥转换操作引入到果蝇优化算法中,提出基于细菌趋化的果蝇优化算法。该算法通过判断群体适应度方差是否为零来决定执行排斥操作(逃离最差个体)还是吸引操作(向最优个体靠近),解决果蝇优化算法中只向最优个体靠近,而导致种群多样性丢失引起的早熟收敛问题。对几种经典测试函数的仿真结果表明,新算法具有更好的全局搜索能力,在收敛速度、收敛可靠性及收敛精度上比果蝇优化算法有较大的提高。  相似文献   

15.
针对果蝇优化算法( FOA)收敛速度快但寻优精度低的缺点,为了改善果蝇算法的优化性能,提出一种混合果蝇优化算法( HFOA)。HFOA采用分段优化的思想,在优化过程后期采用收敛稳定性较好的粒子群优化( PSO)算法优化果蝇算法中果蝇个体飞行距离和味道浓度的判定值,采用误差性能指标积分准则ITAE作为适应度函数,并将优化方案应用于一类不稳定系统的PID控制。Matlab仿真验证表明:HFOA计算高效,具有良好的稳定性,收敛精度高,进而验证了HFOA应用于PID控制参数优化是可行而有效的。  相似文献   

16.
周红芳  赵雪涵  周扬 《计算机应用》2012,32(8):2182-2185
传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。  相似文献   

17.
为将果蝇优化算法有效应用在多模函数优化问题中,设计了一种优化多模函数的果蝇优化算法—基于佳点集和小生境技术的混合果蝇优化算法。首先引入数论中的佳点集概念构造初始种群,使其较均匀地分布在可行域中并且产生的模式多样性比随机分布更好,提高了算法的搜索能力及效率和稳定性;其次用小生境技术改进算法的搜索模式,更好地维持了种群的多样性使种群能快速定位较多的峰;再通过小生境熵来量化群体的多样性并选择进化方向,当小生境熵低于设定的阈值时,结合佳点搜索产生新群体给以扰动,以维持种群的多样性,否则对各个峰进行精细搜索。对七个测试函数分别进行两类仿真,结果表明,该算法不仅能够高效且高精度地找到全局极值而且能够以较高的精度定位到所有全局极值和多个次优极值,显示了较强的多峰搜索能力。  相似文献   

18.
针对基本果蝇优化算法收敛速度慢、求解精度低、易于陷入局部极值以及算法候选解不能取负值等不足,提出一种用于解决约束优化问题的改进果蝇优化算法.该算法利用果蝇个体历史最佳记忆信息和种群全局历史最佳记忆信息构建多策略混合协同进化的搜索机制,以达到有效平衡算法的全局探索与局部开发的目的,同时也能够较好地避免算法的早熟收敛问题;...  相似文献   

19.
求解置换流水线调度问题的混合离散果蝇算法   总被引:1,自引:0,他引:1  
针对置换流水线调度问题,提出了一种新颖的混合离散果蝇算法.算法每一代进化包括4个搜索阶段:嗅觉搜索、视觉搜索、协作进化和退火过程.在嗅觉搜索阶段,采用插入方式生成邻域解;在视觉搜索阶段,选择最优邻域解更新个体;在协作进化阶段,基于果蝇个体间的差分信息产生引导个体;在退火操作阶段,以一定概率接受最优引导个体从而更新种群.同时,通过试验设计方法对算法参数设置进行了分析,并确定了合适的参数组合.最后,通过基于标准测试集的仿真结果和算法比较验证了所提算法的有效性和鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号