首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
周兵  冯中慧  王和兴 《计算机科学》2007,34(10):195-199
本文的目的就是通过理论分析和试验,探讨集群环境下并行聚类算法的设计思想。作为一种低成本、通用并行系统,集群系统的通讯能力相对于节点的计算能力是一个瓶颈。所以本文提出,在集群环境下设计并行聚类算法时,应采用数据并行的思想。本文首先从理论上,对采用数据并行思想后影响加速比的因素和通讯策略的选择进行了分析,然后实现了一个新的并行聚类算法——PARC算法。通过PARC算法的实验,证明了理论分析的正确性,并且表明并行聚类算法可以得到良好的聚类质量。本文的研究结果可以为以后设计更好的数据并行聚类算法提供一定的理论依据。  相似文献   

2.
BIRCH聚类算法优化及并行化研究   总被引:1,自引:0,他引:1  
朱映辉  江玉珍 《计算机工程与设计》2007,28(18):4345-4346,4369
为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题.并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见.最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能.  相似文献   

3.
为满足大规模空间数据库的聚类需求,面向计算机集群,提出一种基于密度的并行聚类算法。该算法根据数据库分布特征进行数据分区,在每一个节点上对数据块并行聚类,在主节点上合并聚类结果。实验结果表明,该算法的计算速度随着节点数的增多呈线性增加,具有较好的延展性。  相似文献   

4.
《微型机与应用》2017,(12):16-18
采用AP聚类算法进行复杂网络社团挖掘,提高了社团挖掘的精度,但在处理海量数据时算法速率明显下降,其中一个重要原因是单台计算机的计算性能无法满足海量数据的计算需求。为了提高社团挖掘AP聚类在处理海量数据时的速率,设计出一种在Hadoop框架下进行的社团挖掘的并行化AP聚类方法;将传统单机模式下的社团挖掘AP聚类算法在分布式平台上分布进行并行化。实验表明,社团挖掘的并行化AP聚类方法在社团挖掘精度不下降的情况下提高了海量数据的社团挖掘速率。  相似文献   

5.
针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。通过相关实验表明,该方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。  相似文献   

6.
二分K均值聚类算法在二分聚类过程中的初始质心选取速度方面存在不足。为此,提出以极大距离点作为二分聚类初始质心的思想,提升算法的运行速度。研究如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分的策略,对算法进行并行化处理。实验结果表明,改进后的算法能获得比较理想的加速比和较高的使用效率。  相似文献   

7.
针对大数据背景下K-means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-means聚类优化及并行策略。从算法优化层面,采用Canopy算法确定聚类数目◢k◣并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-means的并行加速策略,并分析不同并行度对计算耗时的影响。经实验,相较于K-means算法,CK-means算法的准确率与迭代次数间的比值更高,算法性能更优,在iris数据集中性能比提升44.79%,在wine数据集中性能比提升32.03%;同时证明了不同并行度下CK-means算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关。  相似文献   

8.
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等.深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略.在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘.  相似文献   

9.
基于MPI的并行PSO混合K均值聚类算法   总被引:2,自引:0,他引:2  
传统的串行聚类算法在对海量数据进行聚类时性能往往不尽如人意,为了适应海量数据聚类分析的性能要求,针对传统聚类算法的不足,提出一种基于消息传递接口(MPI)集群的并行PSO混合K均值聚类算法。首先将改进的粒子群与K均值结合,提高该算法的全局搜索能力,然后利用该算法提出一种新的并行聚类策略,并将该算法与K均值聚类算法、粒子群优化(PSO)聚类算法进行比较。实验结果表明,该算法不仅具有较好的全局收敛性,而且具有较高的加速比。  相似文献   

10.
基于云计算平台Hadoop的并行k-means聚类算法设计研究   总被引:2,自引:0,他引:2  
随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临 许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算 法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、 扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。  相似文献   

11.
传统的聚类算法不适用于处理海量和高维数据。针对云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题,给出了云计算环境下基于分形维数的聚类融合算法。该算法首先对基于分形维数的聚类算法进行改进,使之更适用于并行计算,其产生聚类作为初始聚类成员;再结合投票算法的融合策略实现融合。最后,对基于分形维数的聚类融合算法在云计算环境下实现并行计算。通过在UCI数据集上的对比实验来验证该算法的有效性。  相似文献   

12.
基于阶段并行模型的算法设计研究   总被引:1,自引:0,他引:1  
NOWs正成为并行计算领域的一个新的发展热点,以太网构成的微机集群系统是NOWs的一种重要实现形式。阶段并行模型是BSP模型的改进,它更接近于表述实际的机器行为,同时具有编程简单、独立于体系结构和执行性能可预测等特点。文章研究了群集系统中阶段并行模型上的并行算法设计,以FFT算法为例,进行了设计和分析,并给出了测试结果。  相似文献   

13.
用于并行计算的PC机群   总被引:4,自引:0,他引:4  
随着计算机技术的高速发展,使用机群进行并行计算也越来越流行,尤其是利用工作站机群进行并行计算已经十分普遍。但使用PC机群进行并行计算的系统还很少,这种PC机群由一组PC机(486,586)通过网络互连组成。本文介绍现有的几个PC机群和我们研制的一个PC机群计算环境  相似文献   

14.
瞿原  邓维斌  胡峰  张其龙  王鸿 《计算机科学》2018,45(1):97-102, 107
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。  相似文献   

15.
计算机和网络硬件设备逐步实现商品化和标准化,PC机或工作站的性能越来越高而价格越来越便宜,同时开源Linux微内核及集群工具中间件技术也日趋成熟稳定,高性能计算集群逐渐发展起来,并成为主流的高性能计算平台。高性能计算集群逐渐替代专用、昂贵的超级计算机对大规模并行应用构建原型、调试和运行。基于PCs或工作站的高性能计算快速部署及其可靠性和可管理性研究,对高性能计算集群在科学研究和工程计算等领域的应用,促进高性能计算技术的应用方面具有深远的意义。本文以OSCAR集群为实例,部署一个五结点的集群环境并运行简单的并行测试例子。  相似文献   

16.
《Computers & Structures》2002,80(14-15):1305-1316
This paper presents a distributed simulated annealing (SA) algorithm for optimal structural design of steel structures under stress, maximum displacement, and inter-story drift constraints. To effectively harness the distributed computing capabilities of a cluster of PCs, a two-phased SA algorithm consisting of simulated quenching (SQ) and SA is developed and used for development of the distributed algorithm. The distributed algorithm is based on two different levels of parallelism, design variable level for a distributed SQ algorithm and candidate design level for a distributed SA algorithm. The distributed SA algorithm is applied to the discrete minimum weight design of a verifying example and two steel braced frame structures. The results show that the distributed SA algorithm implemented on a network of PCs can reduce the computational requirement significantly, and yield more stable convergence histories.  相似文献   

17.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

18.
由于人们对事物认知的局限性和信息的不确定性,在对决策问题进行聚类分析时,传统的模糊聚类不能有效解决实际场景中的决策问题,因此有学者提出了有关犹豫模糊集的聚类算法.现有的层次犹豫模糊K均值聚类算法没有利用数据集本身的信息来确定距离函数的权值,且簇中心的计算复杂度和空间复杂度都是指数级的,不适用于大数据环境.针对上述问题,...  相似文献   

19.
聚类分析是模式识别中的一个重要问题,是非监督学习的重要方法。K -means 算法是其中最经典的聚类算法之一。但是这种方法面对大规模数据的时候工作量非常巨大,并且保证不了聚类结果的最优性。提出了一种基于量子进化算法的改进的 K -means 聚类算法。该方法结合了两个方法的优点,用量子进化算法进行优化,并且改进了量子进化算法中的交叉算子和更新算子,提高了基于量子进化算法的 K -means 算法局部搜索能力。实验结果表明,改进算法取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号