共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。 相似文献
3.
曹丹平 《计算机工程与应用》2012,48(36):9-13
波动方程数值模拟普遍存在计算量大的问题,如何根据波动方程有限差分方法的特点开展并行化方法研究是适应微机多核发展的必然趋势。结合波动方程数值模拟中的多层循环嵌套问题和OpenMP的特点,通过确定循环体并行顺序、减少串行环节、合并循环体、准确设置制导语句以及线程绑定优化等方法有助于实现微机多核的高效并行。针对波动方程特点的多核并行不仅有助于提高单机计算效率,对于提高计算机集群上常用的MPI+OpenMP混合并行效率也具有重要意义。 相似文献
4.
基于工作站机群并行求解有限元线性方程组 总被引:2,自引:0,他引:2
付朝江 《计算机工程与设计》2008,29(24)
随着计算机高速网络技术的发展,工作站机群正在成为并行计算的主要平台.有限元线性方程组在土木工程结构分析中是最常见的问题.预处理共轭梯度法(PCGM)是求解线性方程组的迭代方法.对预处理共轭梯度法进行并行化并在两个不同的机群上实现,对存储方式进行详细分析,编程中采用了稀疏矩阵向量相乘的优化技术.数值结果表明,设计的并行算法具有良好的加速比和并行效率,说明并行计算能更快地求解大规模问题. 相似文献
5.
6.
本文应用区域分解算法进行油藏模拟的并行计算研究,寻求可高效并行求解三维三相数值模拟问题的最优算法。在对流行的预处理共轭梯度算法及GMRES算法进行对比研究的基础上,提出了改进的GMRES算法,这种算法具有迭代参数不需优化、收敛快、可得到较精确解等优点。应用该解法对三维三相黑油模型软件进行并行化改造。通过模型及实际油藏计算,比软件原算法及GMRES算法的计算速度得到大幅度提高。并行效率较高,并行化后的模拟软件可以有效地解决大型整装构造油藏的数值模拟问题。 相似文献
7.
利用增量-牛顿法和光滑聚集代数多重网格(SA-AMG)预条件共轭梯度法(PCG),实现一种弹塑性问题的有限元并行求解方法。在求解过程中,分步施加荷载并循环;在每个循环中,使用牛顿法迭代;在每次迭代中,使用SA-AMG预条件共轭梯度法并行求解线性化后的方程组。基于Trilinos开发相应的并行程序,并在天河二号超级计算机上进行数值实验,验证算法和程序的正确性。分析光滑聚集代数多重网格法的主要参数对计算性能的影响,测试程序的并行性和可扩展性。 相似文献
8.
针对对称逐步超松驰预处理共轭梯度(Symmetric Successive Over Relaxation Preconditioned Conjugate Gradient,SSOR-PCG)法并行化时每步迭代都要并行求解2个三角方程组的困难,采用多色排序技术提高并行度,基于MPI+OpenMP混合编程模型开发适合于分布共享内存计算机的并行程序,通过测试选择有效的MPI通信函数,并给出3种避免共享数据竞争的措施,供不同规模问题和不同内存容量计算机情况选用. 相似文献
9.
10.
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解. 相似文献
11.
MPI+OpenMP混合并行编程模型应用研究 总被引:13,自引:0,他引:13
多处理器结点集群在高性能计算市场上日趋流行,如何在多处理器上编写出高效的并行代码成为研究的热点。MPI+OpenMP为多处理器结点集群提供了一种有效的并行策略,结点内部共享内存空间编程模式适合 OpenMP并行,消息传递模型MPI被用在集群的结点与结点之间,这样就实现了并行的层次结构化。 相似文献
12.
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。 相似文献
13.
14.
ZHAO Hang-tao 《数字社区&智能家居》2008,(27)
该论文研究了利用并行共轭梯度算法求解二维泊松方程的方法,在由24台微机组成的机群上进行了实验。实验数据表明并行共轭梯度算法适用于求解二维泊松方程,它具有收敛快,可扩展性强的特点。在实验的基础上提出并验证了适用于并行共轭梯度算法的合理计算节点数的选择函数。 相似文献
15.
提出了并行求解实对称稠密矩阵部分特征值的反幂法的预处理方法.该方法基于带状矩阵特征问题反幂法的信息传递复杂度低的特点,采用Householder变换并行算法约化大型实对称稠密矩阵为一定带宽的带状矩阵,针对带状矩阵用反幂法求解矩阵的在某一点的近似特征值;其中针对反幂法迭代中遇到的线性方程组,采用文献中的并行预处理共轭梯度算法求解.最后在Lenovo深腾1800集群上进行数值实验,并与预处理前反幂法的计算结果进行了比较,实验结果表明,经过预处理后的并行性远高于直接采用反幂法的并行性. 相似文献
16.
韩星星 《自动化技术与应用》2021,40(2):69-73
目前飞机和导弹等电大尺寸复杂目标的电磁散射特性采用高频分析法精度较低,本文研究在PC集群环境下三维导体散射问题矩量法的并行化,并应用于复杂目标的RCS计算。本文使用混合积分方程,再用RWG基函数进行离散,阻抗矩阵元素按行分解,并行共轭梯度法进行求解,通过MPI通信库实现。最后使用基准目标NASA杏仁核验证了该并行计算的准确性。 相似文献
17.
通过讨论自然对数底e计算的并行结构,分别实现了Window多线程、OpenMP、MPI和OpenCL四种语言计算e值。其中前三种是基于CPU的并行模式,openCL基于GPU的并行模式。根据数值实验的结果,分析了各种并行计算模式的优缺点。 相似文献
18.
将计算实矩阵的Moore-Penrose逆和Drazin逆转化为线性矩阵方程组的求解问题,然后采用修正共轭梯度法求线性矩阵方程组的一般解,并通过简单的矩阵乘法运算或者直接得到实矩阵的Moore-Penrose逆和Drazin逆.修正共轭梯度法不同于通常的共轭梯度法,它不要求涉及的线性代数方程组的系数矩阵正定、可逆或者列满秩,因此总是可行的.数值算例表明,这种算法是有效的. 相似文献
19.
基于分块数据结构的冲击问题并行计算 总被引:1,自引:0,他引:1
针对三维冲击问题,基于分块数据结构在共享内存并行机上实现OpenMP并行计算.分块数据结构不仅能有效利用计算机多层存储结构,而且增加OpenMP的并行粒度.数值实验表明:在使用分块数据结构后,串行程序的计算速度能提高3倍.通过柱体冲击平板数值模拟实验讨论并行程序的加速比和效率,表明并行程序能有效减少总计算时间. 相似文献
20.
目的 空间位置检索是遥感影像检索中的关键步骤,为进一步提高海量遥感影像编目数据定位检索效率,降低误检率,提出一种基于MPI和OpenMP混合编程模型对射线法进行多层次并行化实现。方法 首先完善传统射线法处理点在多边形边上以及射线与边的端点相交的情况;其次采用MPI实现基于程序层面多机并行,OpenMP实现算法层面单机多线程并行,通过开启多个线程同时处理多边形的各个点,判断它们是否在另一个多边形的内部。结果 当系统中所有节点开启线程数之和等于主节点的最佳线程数时,全局计算速度达到最佳。混合并行算法相比串行算法检索时间减少50%以上,效率更高。结论 MPI+OpenMP混合并行比普通的串行执行、单纯MPI并行或单纯OpenMP并行执行空间定位检索算法效率显著提高,这种并行方案普遍适用于集群环境下的并行程序,并且可以进一步拓展到其他图像处理算法领域。 相似文献