首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
随着多核处理器的出现和迅速发展,将以前经典的串行程序并行化,更好地利用多核体系结构提高其性能,成为了当前多核处理器应用研究值得关注的一个问题。以并行化光线跟踪程序PBRT为例,深入研究了串行程序并行化中的并行模型的设计与实现、正确性验证,以及并行化后的性能优化等问题。优化后的并行PBRT取得了4个线程时近3.5倍的加速比,证明了所给出的并行化及性能优化有良好的效果。  相似文献   

2.
目前全自动并行化方法在并行化能力和应用范围上存在较大限制,而交互式并行化方法能弥补全自动并行化系统的不足。基于此,提出一种交互式并行化方法及其系统ZIPS,描述系统的并行化处理机制,即采用一种计算类型驱动的并行化算法,并以其作为理论基础,针对2类不同计算,利用强大的交互功能获取相关程序信息,并结合自动并行化技术进行源到源的变换。实验表明,该交互式并行化方法能够获得较好的性能。  相似文献   

3.
随着多核处理器的出现和迅速发展,将以前经典的串行程序并行化,更好地利用多核体系结构提高其性能,成为了当前多核处理器应用研究值得关注的-个问题.以并行化光线跟踪程序PBRT为例,深入研究了串行程序并行化中的并行模型的设计与实现、正确性验证,以及并行化后的性能优化等问题.优化后的并行PBRT取得了4个线程时近3.5倍的加速比,证明了所给出的并行化及性能优化有良好的效果.  相似文献   

4.
程序并行化工具由它能有效地解决了多种并行机结构间的代码可移植性和大大地减轻用户使用并行机的困难,已成为当今并行处理领域的一个热门研究课题。相信随着对并行机系统越来越广泛的使用。它还将会得到不断的发展和完善。本文着重介绍了并行化关键技术和工具系统的研究历史与现状,并就这一研究课题今后的发展趋势提出一些看法。  相似文献   

5.
面向CFD的交互式并行化系统Paractive   总被引:2,自引:0,他引:2  
该文介绍了面向计算流体力学(CFD)的交互式并行化系统Paractive以及Paractive系统实现时所采用的关键技术。该文根据CFD程序及其并行化的特点提出了CFD程序并行化的区域计算模型以及区域相关的概念。区域计算模型将CFD程序看成区域操作的有序组合,区域相关则以区域操作为基本单位,区域操作本身所具有的对大块数据进行整体操作的特点,使得区域计算模型和区域相关非常适合开发CFD程序中蕴含的数据并行性。另外,该文还介绍了基于程序对象树的增量分析技术以及CFD程序并行化的静态性能预测技术,并在最后给出了使用Paractive并行化CFD实际算例的测试数据。  相似文献   

6.
基因序列拼装是分子生物研究的重要环节之一。随着DNA序列的快速增长,如何提高基因序列拼装的速度,成为当前基因组研究的重要问题。为充分利用SMP以及集群的资源,在找出Phrap程序的瓶颈后,分别在SUNEnterprise3500及集群上将串行的Phrap程序进行了并行化。论文论述实现并行拼接程序的机理和性能。  相似文献   

7.
杨利  周兴铭 《计算机工程》1996,22(2):6-9,32
提出一种新的并行数据库系统的实现模型,称为“半重写变换”模型。基于该模型提出了一种并行数据库系统的结构。这一结构由多个DBMS Instances和并行查询服务器(PQS)组成。文中首先描述了“半重写变换”模型,然后描述了基于这个模型实现的一个并行查询原型系统ParaBase,最后给出基于Wisonsin Benchmark的一组性能测试结果。  相似文献   

8.
张瑜  黄波 《计算机工程》1999,25(11):5-7
从构造一个高性能的程序自行并行化系统的需求出发,介绍了程序自动并行化系统AGASSIZ中IR的设计原则与设计方法,阐明了此种IR的设计给整个程序自动并行化系统的设计所带来的便利。  相似文献   

9.
分析了遥感业务化处理系统的现实需求,针对当前遥感业务化处理系统存在的不足,结合遥感业务化处理系统和遥感影像并行处理算法两方面研究的成果,提出了基于三级并行的遥感业务化处理系统设计方案,将数据并行、功能并行、任务并行融合到遥感业务化系统中,并在环境与灾害监测预报小卫星星座系统工程中得到应用,为环境减灾提供了快速的遥感处理支持。介绍了系统的体系结构,工作流程,重点研究了三级并行的实现方式,并借助产品实例对其性能进行了测试。结果表明,基于三级并行的遥感业务化处理系统设计方案能够有效的提高遥感业务化处理的效率。  相似文献   

10.
为提高MSP问题的多项式时间算法ZH算法的计算速度,使其能够进行更大规模多级图的测试,本文对ZH算法进行了性能分析与并行的可行性评估,针对ZH算法中循环体较多的特点,分别在巨型机和普通PC机上进行MSP问题求解算法的首次并行化实践,随之对并行化算法提出优化方法,在实验中取得了较高的加速比。  相似文献   

11.
基于实例学习的可适应性并行任务负荷分配算法能根据应用程序的静态特征估计其运算负荷,选定好的任务负荷分配方案使其多线程并行接近甚至达到最优,它具有低成本和高效率的特点.通过一系列实验,分析研究训练实例的选择对基于实例学习优化的效果的影响,从中总结一些有益的经验,以便进一步提高算法性能.  相似文献   

12.
并行化编译系统将串行程序划分成若干个相对独立的模块并行执行。将串行程序转换成并行程序之后,在它们的执行过程中需要进行运行控制。本文主要讨论在并行化编译系统的运行控制中,并行模块的启动以及它们之间的数据通信。  相似文献   

13.
实现了风暴潮数值模式基于MPI的并行化;根据该模式数值计算的特点提出了一种并行求解三对角方程组的新方法,相对于传统算法编程简单而且并行效率更高;负载平衡是并行程序性能优化首先要解决的问题,以水格点的个数作为任务分解的标准,实现了较好的负载平衡,相比水陆格点不作区分的分解方法性能有明显的提高;在SMP平台上使用8个CPU时加速比可以达到7.0,在集群平台上为6.5。  相似文献   

14.
We demonstrate approaches to the static parallelization of loops and recursions on the example of the polynomial product. Phrased as a loop nest, the polynomial product can be parallelized automatically by applying a space-time mapping technique based on linear algebra and linear programming. One can choose a parallel program that is optimal with respect to some objective function like the number of execution steps, processors, channels, etc. However,at best,linear execution time complexity can be atained. Through phrasing the polynomial product as a divide-and-conquer recursion, one can obtain a parallel program with sublinear execution time. In this case, the target program is not derived by an automatic search but given as a program skeleton, which can be deduced by a sequence of equational program transformations. We discuss the use of such skeletons, compare and assess the models in which loops and divide-and-conquer resursions are parallelized and comment on the performance properties of the resulting parallel implementations.  相似文献   

15.
随着CPU多核架构的普及,应用的复杂和数据集的膨胀,基于Matlab的遗留系统中的串行程序代码无法充分发挥系统潜在的性能优势,无力应对当前大型数据集的处理应用需求。Matlab的并行计算模型为数据密集型的处理任务提供了并行支持。本文首先从系统架构扩展和业务代码并行化入手,分析遗留系统并行化重构过程要点和方法,应用案例的并行化重构实验数据表明了系统重构处理大型数据集的性能提升。  相似文献   

16.
马春燕  吕炳旭  叶许姣  张雨 《软件学报》2023,34(7):3022-3042
随着多核处理器的普及应用,针对嵌入式遗留系统中串行代码的自动并行化方法是研究热点.其中,针对具有非完美嵌套结构、非仿射依赖关系特征的复杂嵌套循环的自动并行化方法存在技术挑战.提出了一种基于LLVMPass的复杂嵌套循环的自动并行化框架(CNLPF).首先,提出了一种复杂嵌套循环的表示模型,即循环结构树,并将嵌套循环的正则区域自动转换为循环结构树表示;然后,对循环结构树进行数据依赖分析,构建循环内和循环间的依赖关系;最后,基于OpenMP共享内存的编程模型生成并行的循环程序.针对SPEC2006数据集中包含近500个复杂嵌套循环的6个程序案例,分别对其进行复杂嵌套循环占比统计和并行性能加速测试.结果表明,提出的自动并行化框架可以处理LLVMPolly无法优化的复杂嵌套循环,增强了LLVM的并行编译优化能力,且该方法结合Polly的组合优化,比单独采用Polly优化的加速效果提升了9%-43%.  相似文献   

17.
生物序列拼装欧拉路径算法的Gamma描述及其并行化研究   总被引:1,自引:0,他引:1  
序列拼装是生物基因测序的一个重要环节,也是生物信息学重要的研究内容.[2]中将Eulerian路径的方法应用于序列拼接,较好地解决传统序列拼装软件中存在的repeat问题,从而提高序列拼装的精度,但对于该方法的研究目前还只有串行化的实现,拼装速度不够理想.在本文中,我们采用了并行化Gamma模型形式化地描述了用于序列拼装的Eulerian方法,并给出了Gamma程序的并行化实现方案.  相似文献   

18.
OpenMP is widely accepted as a de facto standard for shared memory parallel programming in Fortran, C and C++. Nested parallelization has been included in the first OpenMP specification, but it took a few years until the first commercially available compilers supported this optional part of the specification. We employed nested parallelization using OpenMP in three production codes: a C++ code for content-based image retrieval, a C++ code for the computation of critical points in multi-block CFD datasets, and a multi-block Navier-Stokes solver written in Fortran90. In this paper we discuss the opportunities as well as the deficiencies of the nested parallelization support in OpenMP.  相似文献   

19.
Generation of efficient parallel code is a major goal of a well-designed and developed parallelizing compiler. Another important goal is portability of both compiler system and the resulting output source codes. The various choices of current and future parallel computer architectures as well as the cost of developing a parallelizing compiler make portability a very important design goal. Since the design of parallelizing compilers is considerably move complex than designing conventional compilers, it is very important to achieve both efficiency and portability. To meet this dual goal, we have investigated the application of object oriented design to parallelizing compilers. Our parallelizing compiler design is based on abstractions of intermediate representations of loops and their class definitions. In this paper, we address the problem of loop parallelization and propose a framework where the loop parallelization process is divided into three phases and the optimization of loops is performed via a cyclic application of these three phases. The class of each phase is hierarchically derived from intermediate representations of loops. This facilitates the portability of the resulting parallelizing compilers. Furthermore, one of the phases uses a reservation table of hardware resources in order to obtain optimized parallel programs for given hardware resources. The validation of the proposed framework is given through the application of the object oriented design on an example program which is then parallelized efficiently.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号