首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 134 毫秒
1.
对称矩阵三对角化的有效并行块算法设计   总被引:1,自引:0,他引:1  
在矩阵数值计算中,块算法通常比非块算法更有效,但这也增加了并行算法设计和实现的难度.在广义稠密对称矩阵特征问题并行求解器中,并行块算法的构造可应用到正定对称矩阵的Choleski分解、对称矩阵的三对角化和回代转化(back-transiation)操作中.本文将并行块算法的讨论集中在具有代表性的对称矩阵三对角化上,给出在非块存储方式下对称矩阵三对角化的并行块算法设计方法.分析块算法大小同矩阵规模和处理器数量的关系.在深腾6800上的试验表明,我们的算法具有很好的性能,并得到了比ScaLAPACK更高的性能.  相似文献   

2.
SMP集群系统上矩阵特征问题并行求解器的有效算法   总被引:2,自引:0,他引:2  
对称矩阵三对角化和三对角对称矩阵的特征值求解是稠密对称矩阵特征问题并行求解器的关键步 .针对SMP集群系统的多级体系结构,基于Householder变换的矩阵三对角化和三对角矩阵特征值问题的分而治之算法,给出了它们的MPI OpenMP混合并行算法 .算法研究集中在SMP集群系统环境下的负载平衡、通信开销和性能评价 .混合并行算法的设计结合了粗粒度线程并行模式和任务共享的动态调用方法,改善了MPI算法中的负载平衡问题、降低了通信开销 .在深腾6800上的实验表明,基于混合并行算法的求解器比纯MPI版本的求解器具有更好的性能和可扩展性 .  相似文献   

3.
基于多层半可分(HSS)结构矩阵的快速算法可有效降低具有数值低秩属性的稠密线性方程组求解的复杂度.采用随机取样和保结构秩显(SPRR)分解相结合的方法替代秩显QR(RRQR)分解可以快速构造HSS结构矩阵.该方法将压缩构造HSS结构矩阵转换成小矩阵计算,减少存储和通信开销,使构造HSS结构矩阵的时间复杂度进一步降低.在分布式机群上采用ScaLapack的二维循环块分布方式存储各矩阵块,将HSS树和处理机网格进行映射.构造HSS结构矩阵的并行算法包括对矩阵的多层块压缩,数据交换和重分布,然后结合并行ULV分解和并行三角求解实现快速并行求解,分析了该并行算法的复杂度.最后以二维电磁散射问题为例,数值结果表明该算法不仅比直接LU分解快一个数量级,而且具有良好的并行可扩展性.  相似文献   

4.
广义稠密对称特征问题的求解是许多应用科学和工程的主要任务,并且是计算电磁学、电子结构、有限元模型和量子化学等计算中的重要部分。将广义对称特征问题转化为标准对称特征问题是求解广义稠密对称特征问题的关键计算步骤。针对GPU集群,文中给出了广义稠密对称特征问题标准化块算法在GPU集群上基于MPI+CUDA的实现。为了适应GPU集群的架构,广义对称特征问题标准化算法将正定矩阵的Cholesky分解与传统的广义特征问题标准化块算法相结合,降低了标准化算法中不必要的通信开销,并且增强了算法的并行性。在基于MPI+CUDA的标准化算法中,GPU与CPU之间的数据传输操作被用来掩盖GPU内的数据拷贝操作,这消除了拷贝所花费的时间,进而提高了程序的性能。同时,文中还给出了矩阵在二维通信网格中行通信域和列通信域之间完全并行的点对点的转置算法和基于MPI+CUDA的具有多个右端项的三角矩阵方程BX=A求解的并行块算法。在中科院计算机网络信息中心的超级计算机系统“元”上,每个计算节点配置2块Nvidia Tesla K20 GPGPU卡及2颗Intel E5-2680 V2处理器,使用多达32个GPU对不同规模矩阵的基于MPI+CUDA的广义对称特征问题标准化算法进行测试,取得了较好的加速效果与性能,并且具有良好的可扩展性。当使用32个GPU对50000×50000阶的矩阵进行测试时,峰值性能达到了约9.21 Tflops。  相似文献   

5.
本文给出了一个基于谱分割并行求解稀疏矩阵特征值的方案,将矩阵的特征值求解区间划分为多个独立的子区间,分别对各个子区间内的特征值进行独立的并行求解.在该方案中,提出了一种通过盖尔圆信息估计矩阵特征值分布的方法,并结合二分法以及插值方法修正特征值的分布,提高估计的准确性,进行谱区间分割.本文还结合谱分割和基于围道积分的近似谱投影算法设计出一个特征值问题多级并行算法,并在"深腾7000"和"元"超级计算机上验证了本文提出谱分割方案的有效性、均衡性以及特征值并行求解的高效性.同通用求解方法相比,基于谱区间分割的并行算法在1024核上性能提高了5倍以上,并行求解的可扩展性显著提升.  相似文献   

6.
由于线性规划在理论和实践中的重要性,对求解大规模规划问题并行算法的研究已引起许多学者的兴趣.本文根据Galperin提出的线性规划的一种线性时间的立方算法特别适合并行的特点,提出了一种基于SPMD模型和主从式MPI的线性规划并行算法,并对算法性能进行了深入分析,理论分析和在曙光3000上的实验结果表明:该算法具有粗粒度并行、良好的可扩展性和理想加速比模型等优点,明显优于目前为止求解同类不对称线性规划问题的其他并行算法,可用于求解此类大规模线性规划问题的高性能计算.  相似文献   

7.
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解.  相似文献   

8.
针对三角网格模型,描述了一种求解最短路径问题的并行算法.该算法使用两矩阵相乘思想,利用对邻接矩阵的划分实现算法的并行化,给出了输出路径值和打印路径的过程分析.最后给出了该算法在机群环境下的实现,并联系实际例图,进行了算法性能分析,验证了其具有很好的并行效率.  相似文献   

9.
背包问题属于著名的NP完全问题,在信息密码学和数论研究中有着极其重要的应用。在深入分析背包问题现有并行算法的基础上,本文提出了一种基于采样和MIMD结构的背包问题并行求解算法,并给出了算法性能的理论分析和在IBMP690超级计算机上的实验结果。实验结果表明,当背包实例的维数n≥40时,本算法的并行效率可达60%以上。因此,本并行算法具有较好的可扩展性,能应用于各种MIMD结构的并行机上有效地求解背包问题。  相似文献   

10.
本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。 在多个节点上运行时,展现了良好的扩展性。  相似文献   

11.
从应用角度出发,分析、归纳各种应用中的核心计算过程,利用符合多核处理器芯片架构的并行计算模型对这些核心计算过程进行优化,得出可以被重复利用的高性能可扩展的软件库,它既可以支持新应用的高效开发,也可以保证程序性能的可扩展性。以分层并行计算模型思想为指导,从应用驱动的并行程序性能优化的角度出发,首先提出了面向多核处理器芯片体系结构的并行算法设计模型,在此基础上对并行扫描算法进行分析优化,得出新的具有良好扩展性、高性能的g-scan算法。之后深入研究13种核心计算实体之一的稀疏线性代数计算实体,应用g-scan算法设计实现了新的稀疏矩阵-向量运算算法,并将其应用于结构工程领域中广泛使用的有限元分析,大大提升了其执行效率。  相似文献   

12.
基于精确划分的思想提出了一种新的集合差并行算法DIFF—DL。利用DL子算法查找最终全局序列中等分位置上的划分点,将数据平均划分并分配给所有处理机,使每个处理机具有相同的工作负载。给出了网络并行计算环境下的实验结果,并与DIFF-S、DIFF-NS算法进行了对比。理论分析和实验的结果都表明,DIFF-DL算法具有很高的并行效率和扩展性,原因是划分类算法的性能和划分后区间数据量的平均程度正相关。  相似文献   

13.
Complex physical phenomena can be usually split into several interacting physical computational models and can be numerically simulated by coupling parallel codes individually designed for these models. Besides rational splitting and efficient numerical methods for different models, we must design scalable parallel algorithms to concatenate these parallel codes. Meanwhile, three objectives should be well balanced. The first is how to efficiently transfer data among multiple physical models, the second is how to inherit original scalability of parallel codes and then ensure good scalability of full simulation, and the third is how to ensure independent or simultaneous developments of codes by different research groups. This paper presents two concatenation algorithms for parallel numerical simulation of radiation hydrodynamics coupled with neutron transport on unstructured grid. The first, Full Loose Concatenation Algorithm, focuses on independent development and inheritance of original scalability, and the second, Two Level Compact Concatenation Algorithm, focuses on optimal tradeoff among above three objectives. Theoretical analysis for communicational complexity and parallel numerical experiments using hundreds of processors on two parallel machines have shown that these two algorithms are efficient and can be generalized to other parallel numerical simulations for hydrodynamics coupled with radiation or neutron transport. In particular, the second algorithm is linearly scalable and has achieved theoretical optimal performance.  相似文献   

14.
王国仁  于戈  叶峰  郑怀远 《计算机学报》1999,22(10):1032-1041
提出了一个基于分布式共享虚拟存储器技术的并行Hash连接算法,然后设计了一个并行连接算法的测试评价基准,并评价和分析了该算法在均匀情况下3个不同负载的性能比较和Zipf顺斜数据分布情况下两种度策略的算法性能。同时与其它并行连接算法进行性能比较与分析。  相似文献   

15.
A considerable number of broadcast algorithms have been proposed for the mesh over the past decade. Nonetheless, most of these algorithms do not exhibit good scalability properties as the network size increases. As a consequence, most existing broadcast algorithms cannot efficiently support real-world parallel applications that require large-scale system sizes due to their high computational demands. Motivated by these observations, this paper proposes the Nearest Side First Algorithm (or NSF for short) as a new adaptive broadcast algorithm for the mesh. One of the key results is that the performance of the NSF algorithm scales up well with the increase of processing elements, a feature not demonstrated by any previous broadcast algorithms, which enables the proposed algorithm to utilise massive parallel architectures with maximum effectiveness.  相似文献   

16.
Scalability is an important performance metric of parallel computing, but the traditional scalability metrics only try to reflect the scalability for parallel computing from one side, which makes it difficult to fully measure its overall performance. This paper studies scalability metrics intensively and completely. From lots of performance parameters of parallel computing, a group of key ones is chosen and normalized. Further the area of Kiviat graph is used to characterize the overall performance of parallel computing. Thereby a novel scalability metric about iso-area of performance for parallel computing is proposed and the relationship between the new metric and the traditional ones is analyzed. Finally the novel metric is applied to address the scalability of the matrix multiplication Cannon’s algorithm under LogP model. The proposed metric is significant to improve parallel computing architecture and to tune parallel algorithm design.  相似文献   

17.
网络计算环境下并行算法及其可扩放性分析   总被引:4,自引:2,他引:4  
并行算法的可扩放性是提其有效利用计算节点的能力,它可以预测算法在处理机数目变化时的性能,在网络环境下用PVM实现了并行矩阵乘法及PSRS算法,分析了在网络计算环境下这两个算法的可扩放性,并利用试验数据进行了验证。  相似文献   

18.
Differential evolution (DE) has become a very powerful tool for global continuous optimization problems. Parameter adaptations are the most commonly used techniques to improve its performance. The adoption of these techniques has assisted the success of many adaptive DE variants. However, most studies on these adaptive DEs are limited to some small-scale problems, e.g. with less than 100 decision variables, which may be quite small comparing to the requirements of real-world applications. The scalability performance of adaptive DE is still unclear. In this paper, based on the analyses of similarities and drawbacks of existing parameter adaptation schemes in DE, we propose a generalized parameter adaptation scheme. Applying the scheme to DE results in a new generalized adaptive DE (GaDE) algorithm. The scalability performance of GaDE is evaluated on 19 benchmark functions with problem scale from 50 to 1,000 decision variables. Based on the comparison with three other algorithms, GaDE is very competitive in both the performance and scalability aspects.  相似文献   

19.
一种层次的、混合并行离散事件仿真算法   总被引:5,自引:0,他引:5  
并行仿真算法是并行离散事件仿真中心的核心问题,对于具体的应用系统,采用不同的并行仿真算法将导致其仿真性能大的差异,提出了一种针对于分布环境中特定应用系统仿真的层次的,混合并行离散事件仿真算法,测试和应用表明,和通常的保守机制或者乐观机制相比,能够较大地提高仿真效率,并且具有良好的可扩展性,首先给出了在通信开销不可忽略的环境下,保守机制和乐观机制的性能测试结果和两者适用情况的分析,然后根据测试结果和具体应用系统的特点,提出了层次的,混合并行离散事件仿真算法,给出了LP级和组级算法算,最后对算法进行了测试和性能分析。  相似文献   

20.
并行算法的可扩放性分析   总被引:8,自引:0,他引:8  
本文讨论并行算法的可扩放性的定义,研究目的和各种评判标准,以期有助于了解并行算法和体系结构的匹配关系,最大化系统的加速和效率以及预计目前小规模并行机上的并行算法运行于巨最并行机MPC上时的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号