首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在某个共享存储式对称多处理(SMP)并行计算机上实现了应用程序(二维弹塑性流体动力学程序)的并行化。该并行计算机系统仅支持对FORTRAN DO循环结构的并行化。文章结合并行机的高性能特征,组织了该程序主体模块的并行化计算,同时给出解决Cache问题的一个实用并行优化技术。数据结果表明:有比较好的加速比。  相似文献   

2.
具有量子行为粒子群优化算法的并行化研究   总被引:3,自引:2,他引:1       下载免费PDF全文
在研究了具有量子行为粒子群算法的基础上,受遗传算法并行化的启发,对具有量子行为的粒子群算法提出并实现了新的并行化策略。针对通信时间过长的问题,提出了改进方法。最后通过benchmark测试函数,将并行化量子粒子优化算法和二进制遗传算法、十进制遗传算法、粒子群优化算法的并行化方法进行了仿真比较,并对结果进行了分析。  相似文献   

3.
并行化编译器通过发掘串行程序中的并行性来提高程序的运行性能。但当可并行的工作量与并行的线程数目之比较小时,有可能采用并行执行反而会降低程序的整体性能。本文工作基于SUIF结构.研究精确的工作量计算方法,并实现了基于工作量的条件并行化技术.有效地提高了并行程序的执行性能。  相似文献   

4.
提出标量划分与整合模型,基于此模型,提出一种灵活的椭圆曲线密码标量乘的并行化处理方法。由于该方法是基于标量乘的算法操作级别,因此能在各种不同处理器数量的并行系统中实现。相对于现有的基于固定数量处理器的标量乘并行化方法,本文的并行化方法是灵活的。同时,本文提出的标量乘并行化方法最优时间复杂度可以减少到(logk)A+kD。通过实例比较,本文提出的方法的最优时间复杂度比经典的二进制方法减少了大约30%。  相似文献   

5.
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。  相似文献   

6.
对于高性能并行计算机而言,如何由给出的计算、数据划分信息及精确数组数据流分析信息自动生成并行化代码是实现串行程序并行化的一个重要问题。根据Saman P.Amarasinghe和Lam的定理,实现了一种并行化识别工具中MPI(Message Passing Interface)并行化代码自动生成技术的算法,并对该算法的性能进行分析。  相似文献   

7.
在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRCH算法分别与单机的BIRCH算法和MLlib中的K-Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。  相似文献   

8.
基于MapReduce的主成分分析算法研究   总被引:1,自引:0,他引:1  
随着MapReduce并行化框架的流行,各种数据挖掘算法的并行化也成为了当下研究的热点。主成分分析(Principle Components Analysis,PCA)算法的并行化也得到了越来越多的关注。通过对目前PCA算法的并行化研究的成果进行总结,发现这些PCA算法并行程度并不完全,特别是特征值计算过程。整个PCA算法流程分为两个阶段:相关系数矩阵求解阶段和矩阵的奇异值分解(Singular Value Decomposition,SVD)阶段。通过当前最流行的并行框架MapReduce,融合矩阵的QR分解,提出了一种奇异值分解的并行实现方法。利用随机产生的不同维度大小的双浮点矩阵比较并行奇异值分解相对传统串行环境下的算法效率的提升情况,并分析算法效率。之后,将并行奇异值分解融合到PCA算法中,同时提出相关系数矩阵的并行计算过程,将PCA计算的两个部分完全并行化。利用不同维度的矩阵对提出的并行PCA算法与已存在的未完全并行PCA算法、常规的PCA算法的运算速度进行比较,分析完全并行化PCA算法的加速比,最终得出所提算法在处理一定规模的大数据情况下的时间消耗要少许多。  相似文献   

9.
海洋数值预报技术的发展与高性能计算密切相关。为提高OVALS海洋资料同化系统的时效性,本文实现了OVALS系统的并行化。在温盐资料同化模块并行化过程中,本文提出了层优先处理器划分算法,并研究了基于该算法的并行I/O、全局通讯等实现方法;在高度计资料同化模块并行化过程中,设计实现了基于预处理的非规则区域分解算法,较好地实现了OVALS并行计算负载平衡。数值实验表明,OVALS并行系统在36并行规模下取得了17.45的并行加速比。  相似文献   

10.
吴明 《软件学报》1997,8(A00):9-14
本文探讨了遗传算法的并行化原理;给出了并行遗传算法弧岛模型上的具体实现方法;分析和比较了用串行遗传算法和并行遗传算法求解TSP的实验结果,获得了接近线性的加速比,最后讨论了相关参数对实验结果的影响。  相似文献   

11.
用于并行计算的PC机群   总被引:4,自引:0,他引:4  
随着计算机技术的高速发展,使用机群进行并行计算也越来越流行,尤其是利用工作站机群进行并行计算已经十分普遍。但使用PC机群进行并行计算的系统还很少,这种PC机群由一组PC机(486,586)通过网络互连组成。本文介绍现有的几个PC机群和我们研制的一个PC机群计算环境  相似文献   

12.
集群是充分利用计算资源的一个重要概念,PC集群是最易构建的分布式并行计算环境。MPI是应用最广的并行程序设计平台。本文通过实例阐述PC集群及PC集群上的MPI并行计算环境的搭建。  相似文献   

13.
基于PC集群的三维图形并行渲染性能分析   总被引:1,自引:0,他引:1  
研究基于PC集群的三维图形并行渲染性能问题,从网络性能、算法复杂度、并行分配机制等几方面分析了影响并行渲染性能的关键因素。在千兆以太网PC集群上进行了基于通用MPI和OpenGL的三维图形并行渲染仿真测试,给出了数据及分析结果,给出了合理构建并行三维图形渲染系统的建议,通过平衡图形算法复杂度和网络性能以达到最佳并行性能。  相似文献   

14.
PC集群的结构和性能分析   总被引:1,自引:2,他引:1  
讨论了PC集群中的信道绑定和节点优化等方法及其对集群系统结构和性能的影响,设计和实现了几种基于BSPLib的PC集群性能测试算法,通过对研制的3个PC集群的性能评估,验证了提出的方法和算法的有效性,这些对设计低成本的PC集群能提供有益的帮助。  相似文献   

15.
提出了一种基于PC集群的大规模三维战场电磁环境并行绘制方法。该方法采用直接体绘制的三维体数据可视化方法;利用空间八叉树对电磁绘制区间进行空间分割,并采用先序遍历八叉树叶节点的方式进行任务分配;采用Binary-swap算法对各PC节点的生成图像逐次进行全屏幕深度合成。实验表明,该方法能够较好满足大规模战场电磁环境实时可视化的要求。  相似文献   

16.
PC机群的建立及在数值计算中的研究与应用   总被引:1,自引:0,他引:1  
文中给出了一个利用SSH(Secure Shell)技术组建机群环境的新方案,并分析了PC机群的系统环境和网络并行软件PVM和MPI的主要功能,指出了各自的优缺点。分析设计了DAC并行算法,利用机群求解大规模线性方程组。数值结果表明算法收到较好的效果。PC机群能满足求解犬规模、高精度问题的需要,推动数值计算进一步发展。  相似文献   

17.
水下声场计算复杂,计算量大,目前的模型难以满足在水下战场环境仿真中对声场的实时性的要求.计算机技术的发展,特别是高性能集群的出现,为解决此问题提供了一种可行的方法.文中首先介绍了如何将单PC机通过以太网连接起来,构建实验环境下的用于水下声场计算的PC集群,然后给出了在此系统上运行水平不变声道中WKBZ简正波并行计算方法及FOR3D模型的并行方法的结果.实验结果表明,此系统能够可以为水下声场计算提供一个很好的并行环境,集群系统在水下声场及其相关领域必将有很大的应用空间.  相似文献   

18.
Previously, large-scale fluid dynamics problem required supercomputers, such as the Cray, and took a long time to obtain a solution. Clustering technology has changed the world of the supercomputer and fluid dynamics. Affordable cluster computers have replaced the huge and expansive supercomputers in computational fluid dynamics (CFD) field in recent years. Even supercomputers are designed in the form of clusters based on high-performance servers. This paper describes the configuration of the affordable PC hardware cluster as well as the parallel computing performance using commercial CFD code in the developed cluster. A multi-core cluster using the Linux operating system was developed with affordable PC hardware and low-cost high-speed gigabit network switches instead of Myrinet or Infiniband. The PC cluster consisted of 52 cores and easily expandable up to 96 cores in the current configuration. For operating software, the Rock cluster package was installed in the master node to minimize the need for maintenance. This cluster was designed to solve large fluid dynamics and heat transfer problems in parallel. Using a commercial CFD package, the performance of the cluster was evaluated by changing the number of CPU cores involved in the computation. A forced convection problem around a linear cascade was solved using the CFX program, and the heat transfer coefficient along the surface of the turbine cascade was simulated. The mesh of the model CFD problem has 1.5 million nodes, and the steady computation was performed for 2,000 time-integrations. The computation results were compared with previously published heat transfer experimental results to check the reliability of the computation. A comparison of the simulation and experimental results showed good agreement. The performance of the designed PC cluster increased with increasing number of cores up to 16 cores The computation (elapsed) 16-core was approximately three times faster than that with a 4-core.  相似文献   

19.
Triggered by the ever increasing advancements in processor and networking technology, a cluster of PCs connected by a high-speed network has become a viable and cost-effective platform for the execution of computation intensive parallel multithreaded applications. However, there are two research issues to be tackled in the scheduling problem for PC cluster computing: (1) how to reduce the communication overhead of executing a multithreaded application on the cluster; (2) how to exploit the heterogeneity, which is unavoidable in an evolving PC cluster, for the application. In this paper, we propose to use a duplication based approach in scheduling tasks/threads to a heterogeneous cluster of PCs. In duplication based scheduling, critical tasks are redundantly scheduled to more than one machine, in order to reduce the number of inter-task communication operations. The start times of the succeeding tasks are also reduced. The task duplication process is guided given the system heterogeneity in that the critical tasks are scheduled or replicated in faster machines. The algorithm has been implemented in our experimental application parallelization system for generating multithreaded parallel code executable on a cluster of Pentium PCs. Our experiments, using three numerical applications and one protocol processing kernel (multithreading per request), have indicated that heterogeneity of PC cluster is indeed useful for optimizing the execution of parallel multithreaded programs.  相似文献   

20.
提出了一种适合集群计算机上实现的基于BSP模型的并行神经网络训练算法,分析了其他价函数和加速比,在作者研制的集群计算机上进行了实现和测试,结果表明:当问题规模比较大时,此并行算法能区委了的加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号