共查询到20条相似文献,搜索用时 312 毫秒
1.
针对并行求和问题,在Linux环境下组建了一个COW系统,并介绍了在COW系统上的并行求和算法的设计和实现,分析了影响算法性能的因素并提出改进方法,最后给出了并行求和算法在改进前后的实验数据.实验结果表明,当n=2000000时,用改进的算法在两台联想启天4000上测得并行求和效率为80%,而算法改进前在相同的条件下测得并行效率为66.7%,并行效率明显提高. 相似文献
2.
3.
4.
NOW系统上的并行快速排序算法 总被引:5,自引:0,他引:5
介绍了在NOW系统上的并行快速排序算法的设计与实现,分析了影响算法性能的因素及改进方法,最后给出了该算法对字符串排序的并行效率为49.15%。 相似文献
5.
6.
7.
分布存储系统上一种新的并行调度算法 总被引:3,自引:0,他引:3
在一般的分布存储系统上各个处理器可能不同且资源共享,导致了并行任务在各个处理器上的执行时间具有很大的随机性,主要根据系统及并行任务特性等引进特征参数,采用计算与通信重叠等方法设计出了一种新的并行调度算法,即使在多用户环境下应用此算法不仅能达到极高的负载平衡,充分利用系统资源而且能有效地提高并行效率及加速比。实验结果表明,提出的新的并行调度算法与已有的类似调度算法相比能更加有效地利用系统资源及提高并行效率。 相似文献
8.
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 相似文献
9.
求解三对角线性方程组的双向并行分裂法 总被引:3,自引:0,他引:3
首先回顾了H.H.Wang的分裂法^[8]Michielse&Vorst给出的改进算法^[9],分析了影响分裂法及改进算法的并行效率的主要因素,然后提出了一种求解三对角方程组的双向并行分裂法(简记为DPP算法),DPP算法的通讯建立的次数为M&V算法的50%,数据传输量为其30%,最后在工作站网络环境下实现了DPP算法,并就并行效率与M&V算法进行了比较,结果表明在由6台工作站组成的网络中DPP算 相似文献
10.
蚁群算法解决TSP问题的并行化研究与实现 总被引:1,自引:2,他引:1
蚁群算法在处理大规模TSP(Traveling Salesman Problem)问题时耗时较长,为了解决这一不足,给出一种基于多核环境下的并行优化算法.采用OpenMp并行优化技术对蚁群算法中最为耗时的循环迭代和循环赋值部分进行改进,减少其运算时间,同时利用粗粒度并行策略和PC机多核的优势将具有一定规模的小蚁群分配到对应的处理器上,使其并行执行,并且在适当时机让各处理器上的蚁群进行相互间的通信.通过实验证明,改进后的并行蚁群算法程序执行时间明显缩短,执行效率显著提高.由此可见,改进后的并行蚁群算法是可行有效的. 相似文献
11.
In this paper, we present a general survey on parallel computing. The main contents include parallel computer system which is the hardware platform of parallel computing, parallel algorithm which is the theoretical base of parallel computing, parallel programming which is the software support of parallel computing. After that, we also introduce some parallel applications and enabling technologies. We argue that parallel computing research should form an integrated methodology of "architecture algorithm programming application". Only in this way, parallel computing research becomes continuous development and more realistic. 相似文献
12.
随着多处理器的出现,并行技术受到了广泛的关注,成为了加速处理问题速度的重要技术.但是使用并行技术在加速计算的同时也带来了对处理器数量需求的急剧提升,并行成本的显著增加.针对这一问题,通过研究基于PRAM (Parallel Random Access Machine)下的3种最大值查找并行算法中的不足,提出了一种比平衡树算法,快速查找法,双对数深度树方法并行成本(cost)更优的基于数据划分方法的最大值查找并行算法.基于数据划分方法的最大值查找算法有效的解决了现有并行方法中处理器工作量分配不均,对处理器需求过大,实现条件苛刻等问题.为此后类似并行算法降低并行成本提供一个方向. 相似文献
13.
14.
15.
并行构件技术的出现提高了并行软件的开发效率,但现有的并行构件技术缺乏对异构多核平台的支持.为了提高并行构件程序在异构平台上的执行性能,扩展CCA(通用构件体系结构)并行构件模型支持CCA异构并行构件,提出了一种异构的CCA并行构件模型.使用管理者—工人模式调度CCA异构并行构件内的计算任务到异构多核平台上加速执行.在CCA构件工具包的基础上实现了支持扩展CCA并行构件模型的编译系统和运行时框架.在CELL BE和GPU两种异构多核处理器上进行的实验证明了提出的方法比原始的CCA构件程序具有较优的性能.提出的并行构件模型应用在并行程序开发中可以提高并行程序的性能. 相似文献
16.
17.
The GAMMA paradigm is recently proposed by Banatre and Metayer to describe the systematic construction of parallel programs without introducing artificial sequentiality.This paper presents two synchronous execution models for GAMMA and discusses how to implement them on MasPar MP-1,a massively data parallel computer.The results show that GAMMA paradign can be implemented very naturally on data parallel machines,and very high level language,such as GAMMA in which parallelism is left implicit,is suitable for specifying massively parallel applications. 相似文献
18.
19.
尚月强 《计算机工程与应用》2007,43(19):61-63
针对基于PVM的由桌面PC机联网而成的网络并行计算环境中,处理机的运算速度较快而处理机间的通信相对较慢的实际情况,给出了一种局域网求解三角形方程组的并行算法,该算法将三角形方程组的系数矩阵及右端项按行分块,然后将分块的系数矩阵及右端项按卷帘方式存储在各处理机,通过循环传送已求出的解的部分分量以减少处理机间的通信开销,实现较容易。并在1-4台桌面PC机联成的局域网,PVM 3.4 on Windows2000,VC 6.0并行计算平台上编程对该算法进行了数值试验,试验结果表明该算法是有效的。 相似文献