共查询到20条相似文献,搜索用时 78 毫秒
1.
SMP集群系统上矩阵特征问题并行求解器的有效算法 总被引:2,自引:0,他引:2
对称矩阵三对角化和三对角对称矩阵的特征值求解是稠密对称矩阵特征问题并行求解器的关键步 .针对SMP集群系统的多级体系结构,基于Householder变换的矩阵三对角化和三对角矩阵特征值问题的分而治之算法,给出了它们的MPI OpenMP混合并行算法 .算法研究集中在SMP集群系统环境下的负载平衡、通信开销和性能评价 .混合并行算法的设计结合了粗粒度线程并行模式和任务共享的动态调用方法,改善了MPI算法中的负载平衡问题、降低了通信开销 .在深腾6800上的实验表明,基于混合并行算法的求解器比纯MPI版本的求解器具有更好的性能和可扩展性 . 相似文献
2.
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。 相似文献
3.
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+Ope... 相似文献
4.
5.
MPI并行程序设计的负载平衡实现方法 总被引:1,自引:0,他引:1
MPI是目前集群系统中最重要的并行编程工具,它采用消息传递的方式实现并行程序间通信。在MPI并行程序设计中实现负载平衡有着重要的意义,可以减少运行时间,提高MPI并行程序的性能。负载平衡又可分为静态负载平衡和动态负载平衡,对于静态负载平衡,提出了一种分配任务的算法,可有效地按照节点的计算能力,在节点间分配任务;对于动态负载平衡,提出了一种在MPI并行程序中实现的方法,可有效地根据节点的负载情况,在节点间迁移任务。 相似文献
6.
图分区质量极大程度上影响着计算机之间的通信开销和负载平衡, 这对于大规模并行图计算的性能是至关重要的. 然而, 随着图数据规模的越来越大, 图分区算法的执行时间成了一个不可避免的问题. 因此, 研究如何优化图分区算法的执行效率是有必要的. 本文提出了一个基于广度优先遍历加权图生成的启发式图分割方法, 该方法在实现较低的通信代价和较好负载平衡的同时, 只引入了少量的预处理时间开销. 实验结果表明, 本文的划分方法减少了复制因子, 降低通信开销, 并且引入的时间开销较小. 相似文献
7.
8.
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解. 相似文献
9.
通过对基于MPI编程模型实现的开源有限元计算分析软件在多核集群计算平台中的程序性能的分析,找出程序瓶颈及其原因,实现了基于MPI编程模型的并行程序在多核计算环境中的性能优化。根据程序性能瓶颈的分析,提出了基于MPI/OpenMP混合并行编程模型的大规模线性/非线性方程组求解和多线程多进程同时进行消息通信的两种程序性能优化方案。不同计算规模的实验结果表明,在多核集群计算平台中,MPI/OpenMP混合编程模型实现的大规模非线性方程组求解器相对于单纯基于MPI编程模型实现的并行程序,其性能有2倍到3倍的提升;多线程多进程同时消息传递的优化方案虽然对程序能够起到性能优化作用,但是对解决程序消息通信瓶颈的问题不是最好的方法。两个方案总体性能分析结果表明,基于MPI/OpenMP混合编程模型实现的并行程序,在多核集群计算平台中能够更好地发挥硬件系统的计算能力。 相似文献
10.
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。 相似文献
11.
用度量矩阵和偏差矩阵加速修改AHP中判断矩阵的多对元素交叉方法 总被引:1,自引:0,他引:1
本文通过分析判断矩阵,一致性矩阵,导出矩阵及度量矩阵的关系,提出一种用度量矩阵和导出矩阵交叉加速修改AHP中的判断矩阵.当判断矩阵的一致性较差时,基于导出矩阵和度量矩阵中偏离大的元素对判断矩阵一致性的影响较大,通过度量矩阵得出加速修正的步长.每次修改判断矩阵的一对元素即可进行判断矩阵的修正.实例分析表明,交叉修正法是可行的,且可根据问题的性质,灵活确定修正的步长. 相似文献
12.
13.
测量矩阵是压缩传感理论的关键要素之一。针对目前大部分工作中所用的高斯等随机测量矩阵独立随机变元过多,不利于物理实现的问题,引入稀疏带状和稀疏列的概念,形成稀疏带状随机、托普利兹和循环矩阵以及稀疏列随机、循环矩阵,随机变元个数减少约三分之一。采用通用的模拟实验方法,验证此类稀疏矩阵对于真实图像的重建效果及对0-1信号的成功重建概率均与随机高斯矩阵相当。 相似文献
14.
根据分块三对角矩阵逆矩阵的特殊结构,利用其LU和UL分解,并使用Sheman-Morrison-Woodbury公式,得到一个求分块周期三对角矩阵逆矩阵的新算法,并由该算法得到求周期三对角矩阵和对称周期三对角矩阵逆矩阵的新算法。新算法比传统算法的计算复杂度和计算时间要低。 相似文献
15.
Toeplitz矩阵之逆矩阵的新分解式及快速算法 总被引:2,自引:0,他引:2
本文利用线性方程组是否有解给出了Toeplitz矩阵可逆的条件,表明Toeplitz矩阵的逆矩阵可以表示为循环矩阵与下三角Toeplitz矩阵的乘积之和,给出了其逆矩阵列的递推公式,得到了求Toeplitz矩阵之逆矩阵的快速算法,计算复杂性为O(n2),一般n阶矩阵求逆的计算复杂性为O(n3). 相似文献
16.
郝秀梅 《计算机工程与应用》2007,43(36):65-67
提出了粗信息矩阵、信息粒度矩阵、粗粒度矩阵的概念,给出了粗信息矩阵的结构及粒度特征;讨论了粗信息矩阵、粗粒度矩阵的性质及运算法则。给出粗信息矩阵与粗集、S-粗集的关系定理、粗信息矩阵与其粗粒度矩阵的关系定理,粗信息矩阵不仅是研究粗系统结构特征的新理论工具,而且是粗系统理论研究与应用研究又一个新的研究方向。 相似文献
17.
Jaewon Choi Gyuchang Lim Soo Yong Kim Kyungsik Kim 《Computer Physics Communications》2011,(1):219-222
We study two sides of the KOSPI, classified as an emerging market. First, the evolutionary property is examined in terms of overlapping matrix and survival ratios. To this end, we apply the random matrix theory (RMT) and the one-factor model to analyzing correlation matrix and finding business clusters. Second, we examine the relations between the market capitalization and the business. For the well-developed markets such as NYSE, the contribution of the firms to the second-largest eigenvector shows an exponential function of the market capitalizations while no clue is observed for the KOSPI. We confirm that the market capitalization is distributed in a power-law with the exponent 1.2 like a Pareto's distribution. Particulary, the KOSPI shows a different behavior compared to the mature market, that is, one or two companies lead a number of companies with the little money and big companies competed to win each other. The clusters also represent by largest eigenstates show a weak affiliation compared to smaller ones. These results imply that the KOSPI is the target for the short-positioned investors. 相似文献
18.
V. I. Slyusar 《Cybernetics and Systems Analysis》1999,35(4):636-643
Expressions for blocks of the information Fisher matrix are presented based on factorization of the Neudecker derivative of
a transposed face-splitting matrix product.
Translated from Kibernetika i Sistemnyi Analiz, No. 4, pp. 141–149, July–August, 1999. 相似文献
19.
20.
Ai-Guo Wu Lingling LvGuang-Ren Duan Wanquan Liu 《Computers & Mathematics with Applications》2011,62(9):3317-3325
By two recently proposed operations with respect to complex matrices, a simple explicit solution to the Sylvester-conjugate matrix equation is given in a finite series form. The obtained solution can also be equivalently expressed in terms of the so-called controllability-like matrix and observability-like matrix. The proposed solution can provide all the degrees of freedom which is represented by a free parameter matrix. An illustrative example is employed to show the effectiveness of the proposed method. 相似文献