共查询到18条相似文献,搜索用时 93 毫秒
1.
数据划分是分布主存系统中并行编译的关键技术,它以教组和包含这些教组的嵌套循环为研究对象,以提高教据局部性和挖掘计算并行性为根本目的。对满足给定模式的动态分布的教组向量,通过选取代表元,给出数据划分模式。将单个嵌套循环内的数据划分技术和过程间投影技术很好地结合,解决了动态分布教组的数据划分问题。这种模式弥补了现有数据划分研究的不足。 相似文献
2.
本文给出的方法是对Anderson-Lam方法的改进和发展。本文方法在循环分布之后对程序进行DOALL循环的内移和分布变换,使得所有DOALL循环都位于最内层的紧嵌套虽,因而不必按自底向上的顺序针对每个嵌套级进行分解。 相似文献
3.
4.
本文分析了面向分布存储SIMD/MIMD并行机的并行程序的优化数据安放问题,在FORALL程序模型和MESH通信模型上,研究了数据分解过程中减少通信代价的优化要求,我们使用编好图描述并行数组之间的对准需求,通过消除维偏好图中的冲突,可得到维对准对准图,一个维对准图就对应一个数据安放方案,维对准图的总代价越大,对应的通信代价就越小,文中给出了最大代价维对准图的一个近似算法。 相似文献
5.
6.
并行化编译中的一种集成优化方法 总被引:1,自引:0,他引:1
本文提出了一种面向分布存储器多机系统的并行化编译方法.针对分布存储并行系统的特点,作者采用的基本优化策略是:折衷并行性与数据引用局部性;减少和隐藏通信开销.通过对基于仿射函数的程序分解方式所导致的数据通信性质的分析,得到了适合分布存储结构特殊要求的并行性开发方法.为了在保持并行性的前提下最小化通信数据总量,提出了基于齐次线性方程组求解的程序全局优化分解方法.为了优化数据通信的组织,提高结点代码的效率,又提出了一种以线性不等式组作为工具的更加实用的通信优化和结点代码生成方法. 相似文献
7.
基于指针数组的数据划分模式 总被引:1,自引:0,他引:1
数据划分是分布主存系统中并行编译的关键技术,它以数组和包含这些数组的嵌套循环为研究对象,以提高数据局部性和挖掘计算并行性为根本目的。传统数据划分模式不适合指向数组的指针数组的数据划分,论文提出了解决该类指针数组数据划分的划分模式,文中称为数组向量的数据划分。分析其数据引用的特性,通过选取代表元,给出数据划分的策略,弥补了现有数据划分研究的不足。 相似文献
8.
一、引言并行巨型机的发展与并行处理技术(并行性的开发和利用)的发展紧密相关。并行性种类繁多,目前并行处理中最重要的两种是: (1) 控制并行性——允许多个不同操作同时进行,利用控制并行性的典型例子有流水线技术、多功能部件技术。 相似文献
9.
对象并行是面向对象技术与并技术相结合的产物,如何在面向对象语言C++中实现数据行行,任务并行等并并行思想,是当前亟待解决的一个问题。该文探讨了在群机系统上进行对象并行所面临的新问题,并提出了一种新的对象并行模型,给出了在3台RS6000工作站上的初步实验结果。 相似文献
10.
划分是一种自动分配计算和数据到各个处理器的编译技术,是分布存储结构下并行编译的核心问题.以往的划分研究较少从生命期的角度考虑数据分解问题,分解在数组的不同生命期中不一致时会产生冗余通信.为解决上述问题,提出了一种数据分解算法,通过定义-引用图来表示数组的数据流信息,并使用分解映射表为数组不同的生命期建立各自的数据分解.对矩阵求逆等9 个实际用例的实验结果表明,与以往不区分生命期的划分研究相比,使用所提算法能够在寻找数据分解时对并行收益做出更准确的评估,减少了通信冗余,从而提升了自动生成的并行代码的加速比. 相似文献
11.
12.
低功耗及廉价性使得异构多核在超级计算机计算资源中占有重要比例.然而,异构多核具有高带宽及松耦合一致性等特点,获得理想的存储及计算性能需要更多地考虑底层硬件细节.实现了一种针对典型的异构多核Cell BE 处理器的多级并行模型CellMLP,通过C 语言扩展编译指导语句,实现了对数据并行、任务并行以及流水并行编程模型的支持,提高了并行程序生产率.运行支持优化方面,数据并行采用SPE 并行数据传输、双缓冲等优化手段来提高数据传输带宽;任务并行使用一种新式混合任务队列以支持异步任务窃取,降低SPE 线程间竞争,提高了任务并行的可扩展性;流水并行首次使用阻塞信号传输机制实现SPE 线程间的低开销同步操作.实验对Stream,NASBenchmark 及BOTS 等应用进行了测试,结果表明,CellMLP 可对多种典型并行应用进行高效支持.与目前同类编程模型SARC 及CellSs 进行性能对比,其结果表明,CellMLP 实际数据传输带宽以及非规则应用的支持方面具有明显优势. 相似文献
13.
Array redistribution is usually required for more efficiently executing a data-parallel program on distributed memory multi-computers.
In performing array redistribution using synchronous communication mode, data communications among the processors should be
properly arranged to avoid incurring higher data transfer cost. Some efficient communication scheduling methods for the Block-Cyclic
redistribution have been proposed. On the other hand, the processor mapping technique can help reduce the data transfer cost
of redistribution. To avoid degrading the benefit of data transfer cost reduction, it is needed to construct optimal communication
schedules for the redistribution in which the processor mapping technique is applied. In this paper, we present a unified
approach to constructing optimal communication schedules for the processor mapping technique applied Block-Cyclic redistribution.
The proposed method is founded on the processor mapping technique and can more efficiently construct the required communication
schedules than other optimal scheduling methods. 相似文献
14.
15.
Ernie Chan Marcel Heimlich Avi Purkayastha Robert van de Geijn 《Concurrency and Computation》2007,19(13):1749-1783
We discuss the design and high‐performance implementation of collective communications operations on distributed‐memory computer architectures. Using a combination of known techniques (many of which were first proposed in the 1980s and early 1990s) along with careful exploitation of communication modes supported by MPI, we have developed implementations that have improved performance in most situations compared to those currently supported by public domain implementations of MPI such as MPICH. Performance results from a large Intel Xeon/Pentium 4 (R) processor cluster are included. Copyright © 2007 John Wiley & Sons, Ltd. 相似文献
16.
NestStep is a parallel programming language for the BSP (bulk–synchronous–parallel) model of parallel computation.Extending the classical BSP model, NestStep supports dynamically nested parallelism by nesting of supersteps and a hierarchical processor group concept. Furthermore, NestStep adds a virtual shared memory realization in software, where memory consistency is relaxed to superstep boundaries. Distribution of shared arrays is also supported.A prototype for a subset of NestStep has been implemented based on Java as sequential basis language. The prototype implementation is targeted to a set of Java Virtual Machines coupled by Java socket communication to a virtual parallel computer. 相似文献
17.
基于MPI的并行计算集群通信及应用 总被引:4,自引:0,他引:4
对能有效解大型稀疏矩阵方程的LSQR串行算法进行了并行化分析,并应用可移植消息传递标准MPI的集群通信机制在分布式存储并行系统上设计和实现了LSQR并行算法,该并行算法和程序在地震表层模型层析反演中得到了有效的应用。 相似文献