排序方式: 共有30条查询结果,搜索用时 31 毫秒
1.
文中讨论了并行程序的优化问题,指出并行程序的优化应从数据划分、通信优化和串行优化三个方面着手。针对传统加速比的缺点和不足,我们提出了优化加速比模型来评价优化并行程序的性能;对NAS基准测试程序MG和FT进行了优化,用优化加速比模型分析了上述两个程序在IBM SP2上的性能。 相似文献
2.
三对角线性方程组的一种有效和并行算法 总被引:4,自引:0,他引:4
本文提出一种球解严格对角占优的三对角线性方程组的并行算法(简称PPD算法),新算法 计算复杂性约为8n,与最优串行算法追赶法的计算复杂性相同,通信复杂性为常数。目前求解此类方程组的最优并行算法的计算复杂性约为17n,通信复杂性约为logP,相对而言PPD算法的计算性能和通信性能都有大幅度提高。试验结果表明,加速比呈线性增加,并行效率达到90%以上。 相似文献
3.
4.
潜艇使用自航式声诱饵防御声自导鱼雷是水下防御的主要手段之一,传统穷举统计方法计算量随决策参数增多而急剧增加,无法满足实时性要求。从基于多实体有限状态机的鱼雷防御模型出发,提出了2级并行策略,在进程和线程间划分仿真循环,通过数据交换作出最优决策。实验结果表明,并行后的模型可以在短时间内作出和实际作战情况相近的决策,在404个方案仿真的计算量下,模型运行时间从144.65 s缩短至1.2 s,获得了120倍的加速比,有效解决了实时方案决策的问题。 相似文献
5.
数据重分布是实现消息传递环境下负载平衡的重要手段,提出了数据交错分布的模型问题及模型问题的并行计算模型,分析了模型问题在消息传递环境下的实现,讨论了性能和适用条件,给出了分析结果,讨论了通信与计算的时间重叠问题,将数据交错重分布负载平衡技术应用到非平衡刚性动力学方程组的并行计算中,获得了很好的负载平衡效果。 相似文献
6.
TFQMR算法是一种Krylov子空间算法,常用来求解大型稀疏线性方程组.通过改变TFQMR算法的计算次序,提出了一种改进的TFQMR(ITFQMR)算法.对比TFQMR算法,ITFQMR算法的数值稳定性和TFQMR算法相同,几乎没有增加计算量,但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为TFQMR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性,可以进行计算与通信的重叠.从理论和实验两个角度来讨论ITFQMR算法的性能,当处理机台数较多时,ITFQMR算法的计算速度快于TFQMR算法.实验说明了在有64台处理机机群上进行,最快的并行ITFQMR算法的计算速度大约比TFQMR算法快20%. 相似文献
7.
求解三对角线性方程组的双向并行分裂法 总被引:3,自引:0,他引:3
首先回顾了H.H.Wang的分裂法^[8]Michielse&Vorst给出的改进算法^[9],分析了影响分裂法及改进算法的并行效率的主要因素,然后提出了一种求解三对角方程组的双向并行分裂法(简记为DPP算法),DPP算法的通讯建立的次数为M&V算法的50%,数据传输量为其30%,最后在工作站网络环境下实现了DPP算法,并就并行效率与M&V算法进行了比较,结果表明在由6台工作站组成的网络中DPP算 相似文献
8.
通过改变CR算法的计算次序。提出了一种改进的共轭剩余(ICR)算法.对比CR算法。ICR算法的数值稳定性和CR算法相同,几乎没有增加计算量。但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为CR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性。可以进行计算与通信的重叠.从理论和实验两个角度来讨论ICR算法的性能,当处理机台数较多时ICR算法的计算速度快于CR算法.在64台处理机机群上进行的数值实验表明,并行ICR算法的计算速度大约比CR算法快30%. 相似文献
9.
在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该方法在 4核Xeon处理器构成的分布共享集群系统上可扩展到1 024个CPU核,相对于64个CPU核,其加速比为7.06。 相似文献
10.
STREAM是微处理器上内存性能的基准测试程序,在多核多线程FT1000微处理器上发挥高性能是具有挑战性的研究工作。基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄存器数,设计了多级循环展开方法,根据指令延迟和Cache行的大小确定数据预取的数目,使用汇编语言编写了优化子程序。基于OpenMP并行环境,设计了STREAM并行程序,优化了局部化数据分配方式。数据测试结果表明,优化后的STREAM的性能比原始串行程序性能提高了19.2%~64.2%。优化后,并行程序的最高访存性能达到8.5 GB/s,对比优化前的最高访存性能最大提高了22.7%。 相似文献