期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张军华仝兆岐何潮观许卓群《计算机应用》2002,22(9):57-59

文中首先分析了地震资料并行处理的必要性，在介绍HPF高性能并行语言的特点后，着重讨论了p-HPF编译系统的体系结构与关键技术，然后，在分析地震资料自身特征和处理过程模块化程序设计的特点后，给出了地震资料处理的并行策略和一般SPMD程序的实现框图，最后，用一个简单的例子展示了HPF程序对于不同数据规模的并行效率，并用实际地震资料实现了大规模并行处理。相似文献

2.

p—HPF支持多范例并行计算的并行编译技术 总被引：1，自引：1，他引：0

胡长军余华山姜伟陆爱胜许卓群《计算机学报》2001,24(7):685-693

多范例并行是大规模并行应用系统的本质特征,实现p－HPF对多范例并行计算的编译支持不仅可以弥补数据并行示例本身的一些缺点,而且可以提高并行应用系统的效率,文中在论述cluster环境下Global,Local,Serial三种典型并行计算模型的基础上,给出了实现p－HPF对三种模型的典型代表F77＋MPI,ScaLAPACK调用的并行编译技术,包括参数重分布技术、存储转换技术、全局与局部信息交换技术以及局部数组参数的上下界处理技术等,给出了调用实例并分析了实现技术的正确性和有效性。相似文献

3.

HPF高性能语言在地震资料并行处理中的应用 总被引：1，自引：0，他引：1

张军华仝兆岐何潮观许卓群《计算机工程与应用》2002,38(14):38-39,181

HPF（High Performance Fortran)是HPF论坛1993年推出的一种高性能数据并行语言。文章利用合作单位开发的p-HPF并行编译系统,在地震资料处理中得到了大规模的工业应用,基准测试程序和实际资料处理结果表明,基于HPF的地震资料并行处理具有可编程性强,可移植性好和并行效率高等特点,具有很好的应用前景。相似文献

4.

LS SIMD C编译器的数据通信优化算法 总被引：1，自引：1，他引：0

王晖何华籼等《计算机科学》2001,28(9):116-118

1 引言当前理想的程序自动并行化系统的实现存在许多难于解决的问题,因此较为流行的并行计算方法是利用并行语言编写并行程序,编译器对并行程序进行编译生成相应的节点程序执行。并行语言按并行执行的粒度分为基于任务的并行语言(主要面向一般应用领域的计算)和数据并行语言(主要应用于科学数值计算),典型的数据并行语言如HPF。对于数据并行语言而言,程序执行的并行性已由程序设计人员根据程序中的数据相关性给出。因此,如何确定数据的分布、优化数据的通信是影响并行程序执行效率的重要问题。数据分布大致可以分为两个阶段:首先对源程序中数据的相关性分析得到数据在抽象处理机上的分布,然后将抽象处理机上的数据分布映射到物理处理机上。数据分布的确定通常有以下几种实现方式:一种是由程序员给出抽象数据分布,编译相似文献

5.

一种HPF编译系统的研究与实现^* 总被引：9，自引：1，他引：8

都志辉丁文魁郑耿斌李晓明许卓群《软件学报》1999,10(1):60-67

HPF(high performance Fortran)是一种典型的数据并行语言,HPF编译系统的实现是并行计算研究领域的一个难点.文章介绍了一个HPF编译系统的研究与实现情况,在对该系统的主要组成进行了简要介绍之后,着重讨论了系统实现中的若干关键技术,并列出了部分HPF源程序及其编译器生成的相应代码,最后给出了对该编译器的一些性能测试结果和有关问题的讨论. 相似文献

6.

基于网络的数据并行计算中分布数组描述研究

胡长军丁文魁黄其军向华许卓群《软件学报》2002,13(4):608-615

相似文献

7.

一个用于数据并行语言计算划分的时序优化模型 总被引：2，自引：0，他引：2

余华山胡长军黄其军丁文魁许卓群《软件学报》2001,12(10):1434-1446

一个程序中数据并行语句的计算划分(CP)对该程序的运行性能有决定性的作用.尽管人们对这一问题已经进行了广泛的研究,但这些研究的重点都集中在如何提高被选择计算划分的空间局部性上.针对并行循环结构的计算划分问题,提出了一个时序优化模型.在该模型中,一个计算划分被表示成一个有向图,在把并行语句中的操作映射到各个处理器的同时,给出了被分配到不同处理器上的操作之间的相关性.对于一条数据并行语句,时序优化模型对它的每个计算划分选择方案分别采用多种有效的优化策略进行优化;并综合考虑各个计算划分选择方案的负载平衡性、处理器间的操作依赖性、数据访问的空间局部性和时间局部性四个方面的因素,估算每个方案的执行效率;最后从这些方案中选择一个执行效率最优的方案作为该语句的计算划分.作者已在HPF编译器p-HPF采用时序优化模型实现了对FORALL结构的支持.实验结果表明,该模型具有非常好的通用性,对不同领域多种数据并行问题均取得了理想的加速比.同时,只需略微改动,该模型也可用于其他类型数据并行语句的计算划分. 相似文献

8.

像素级遥感图像融合并行算法研究与实现

张灿峰周海芳《计算机工程与科学》2010,32(9):34-38

本文针对遥感图像IHS、HPF、DWT等典型的像素级融合算法,提出并实现了相应的基于数据并行的并行融合算法P-IHS、P-HPF、P-DWT,并在算法时空复杂度分析的基础上进行了通信、I/O优化。针对IKONOS卫星遥感图像在机群系统上的测试结果表明,我们提出的并行算法可获得良好的并行加速比,并行效率较高。这三类算法适合于对实时性要求比较高的遥感应用领域。相似文献

9.

一种支持对象并行的程序设计语言：CompositionalC＋＋

张宏莉胡铭曾《小型微型计算机系统》1999,20(7):507-510

本文首先介绍了ＣｏｍｐｏｓｉｔｉｏｎａｌＣ＋＋并行扩展语言的结构、特点和相关实现机制。然后给出了一个具体的程序实例,对对象并行方面该语言颇具借鉴意义。相似文献

10.

C^＊数据并行语言及其应用

徐金秀唐黎《新浪潮．学网络》1997,(3):22-25

Ｃ＊语言是通过对ＡＮＳＩＣ语言进行进行语法和语义的扩展得的支持ＳＩＭＤ模式的数据并行语言。它允许用户基于一个ＳＩＭＤ虚机描述数据在各个虚处理机上的分布以及对这些数据的并行计算操作，提供了一处简单，有效并与任何特定的机器无关的数据并行编程模型。介绍了Ｃ＊语言在超级计算机领域中的应用和Ｃ＊并行扩成分，并给出了典型的编程实例。相似文献

11.

一种多范例并行应用系统的描述方法和性能估算模型

胡长军张素琴田金兰《计算机学报》2003,26(12):1671-1677

多范例并行是大规模并行应用系统的本质特征．规范化描述并行应用系统，建立性能估算模型对于提高多范例并行应用系统的开发效率和运行效率具有重要意义．该文提出了一种基于模块及其组合关系的描述方法和系统执行代价计算模型，它不仅能描述并行应用系统的多范例特征，而且将不同并行范例模块的组合时产生的代价引入模型．考虑的代价包括并行执行模式的转换、数据分布方式的转换以及编程范例的转换等，从而使模型更为准确．给出了描述和代价估算的应用实例，说明了规范化描述和代价估算对于确定并行策略的重要性以及模型的精确性．相似文献

12.

p-HPF并行编译系统核外计算的实现及优化策略 总被引：4，自引：0，他引：4

丁文魁汪剑平向华李晓明许卓群《计算机学报》1999,22(10):1042-1049

文中阐述了ｐ－ＨＰＦ编译系统中对核外计算的支持以及采取的优化策略,通过对编程模型的扩充和并行Ｉ／Ｏ模型的构造,ｐ－ＨＰＦ编译系统已能对核外数组进行有效的处理。相似文献

13.

SCMP: A Single-Chip Message-Passing Parallel Computer

Baker James M. Gold Brian Bucciero Mark Bennett Sidney Mahajan Rajneesh Ramachandran Priyadarshini Shah Jignesh 《The Journal of supercomputing》2004,30(2):133-149

As technology improves and transistor feature sizes continue to shrink, the effects of on-chip interconnect wire latencies on processor clock speeds will become more important. In addition, as we reach the limits of instruction-level parallelism that can be extracted from application programs, there will be an increased emphasis on thread-level parallelism. To continue to improve performance, computer architects will need to focus on architectures that can efficiently support thread-level parallelism while minimizing the length of on-chip interconnect wires. The SCMP (Single-Chip Message-Passing) parallel computer system is one such architecture. The SCMP system includes up to 64 processors on a single chip, connected in a 2-D mesh with nearest neighbor connections. Memory is included on-chip with the processors and the architecture includes hardware support for communication and the execution of parallel threads. Since there are no global signals or shared resources between the processors, the length of the interconnect wires will be determined by the size of the individual processors, not the size of the entire chip. Avoiding long interconnect wires will allow the use of very high clock frequencies, which, when coupled with the use of multiple processors, will offer tremendous computational power. 相似文献

14.

SW26010众核任务并行调度系统及其嵌套并行算法应用

孙乔黎雷生赵海涛赵慧吴长茂《软件学报》2021,32(8):2352-2364

任务并行是并行程序设计的基础设计模式.但由于算法本身的复杂性及目标平台的特殊性,设计实现高效率的任务并行程序对程序员来说往往充满挑战.基于新兴的SW26010众核CPU,提出了支持任务嵌套并行模式的通用运行时框架SWAN.SWAN对任务并行程序的实现提供了高层次的抽象,使程序员能够专注于算法逻辑本身而提高开发效率.在性能方面,SWAN框架对诸多共享资源进行了细粒度的划分,从而有效地避免了众多线程间对共享资源的高强度争用.充分利用平台的高速访存机制、高速可控缓存和原子操作等特性,对SWAN框架的核心数据结构进行优化设计以降低其本身的性能开销.SWAN还具备动态负载均衡能力,使各个处理器核心的资源得以充分利用.基于SWAN框架,在目标平台上实现了若干典型的具有递归特性的嵌套并行算法,包括N-皇后问题、二叉树遍历、快速排序和凸包求解.实验结果表明,这些通过使用SWAN框架得以并行化的算法相对于其串行版本取得了4.5~32倍的加速,充分说明了SWAN框架具有较高的实用性及性能. 相似文献

15.

基于CUDA的并行布谷鸟搜索算法设计与实现 总被引：1，自引：0，他引：1

韦向远 ;杨辉华 ;谢谱模《计算机科学与探索》2014,(6):665-673

布谷鸟搜索（cuckoo search,CS）算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构（compute unified device architecture,CUDA）的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器（graphic processing unit,GPU）线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。相似文献

16.

Implementation of GAMMA on a Massively Parallel Computer 总被引：1，自引：0，他引：1

下载免费PDF全文

Huang Linpeng Tong Weiqin Kam Wing Ng Sun Yongqiang 《计算机科学技术学报》1997,12(1):29-39

The GAMMA paradigm is recently proposed by Banatre and Metayer to describe the systematic construction of parallel programs without introducing artificial sequentiality.This paper presents two synchronous execution models for GAMMA and discusses how to implement them on MasPar MP-1,a massively data parallel computer.The results show that GAMMA paradign can be implemented very naturally on data parallel machines,and very high level language,such as GAMMA in which parallelism is left implicit,is suitable for specifying massively parallel applications. 相似文献

17.

快速不变矩算法基于CUDA的并行实现研究

韩斌孙文赟周飞王士同《计算机应用》2010,30(7):1983-1986

不变矩自提出以来被广泛应用于目标识别系统中进行特征描述,这需要能够实时计算不变矩值。虽然人们提出了许多不变矩的快速算法,仍无法在单台PC机上实现不变矩的实时计算。本文分析了基于差分矩因子的不变矩快速算法的并行性,提出了一种基于CUDA（Compute Unified Device Architecture）的快速不变矩并行实现方法,并在NVIDIA Tesla C1060 GPU（Graphic Processing Unit）上实现。对所提出算法的计算性能与普通串行算法进行了对比分析。实验结果表明,本文所提出的并行计算方法极大地提高了不变矩的计算速度,可有效地用来进行实时特征提取。相似文献

18.

一种基于群集的并行数据处理中间件

王念滨宋益波姚念民刘大昕《计算机研究与发展》2007,44(10):1702-1708

HPDPM系统是基于无共享群集结构的支持并行数据处理的中间件.提出了中间件系统的体系结构和主要功能模块,详细论述了利用中间件系统实现并行数据处理的方法.阐述了实现数据放置、缓存管理等关键技术的策略和方法.给出了实验和现场测试结果.利用中间件系统,为用户提供统一的服务接口和管理平台,提高了系统性能,增强了系统的可用性和可维护性,保护了用户已有投资.系统目前在大型应用工程中得到实际应用,应用中涉及的数据规模达到TB级. 相似文献

19.

Effect of Data Distribution in Parallel Mining of Associations 总被引：1，自引：0，他引：1

David W. Cheung Yongqiao Xiao 《Data mining and knowledge discovery》1999,3(3):291-314

Association rule mining is an important new problem in data mining. It has crucial applications in decision support and marketing strategy. We proposed an efficient parallel algorithm for mining association rules on a distributed share-nothing parallel system. Its efficiency is attributed to the incorporation of two powerful candidate set pruning techniques. The two techniques, distributed and global prunings, are sensitive to two data distribution characteristics: data skewness and workload balance. The prunings are very effective when both the skewness and balance are high. We have implemented FPM on an IBM SP2 parallel system. The performance studies show that FPM outperforms CD consistently, which is a parallel version of the representative Apriori algorithm (Agrawal and Srikant, 1994). Also, the results have validated our observation on the effectiveness of the two pruning techniques with respect to the data distribution characteristics. Furthermore, it shows that FPM has nice scalability and parallelism, which can be tuned for different business applications. 相似文献