期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞茂学贾东宁魏志强许佳立马广浩《计算机工程与科学》2021,43(6):997-1005

国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节.围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径.针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架.该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系,极大地提高了C++代码的转换和移植效率.通过对可衡量的并行计算基准应用BableStream进行自动转换和移植测试,证实了该转换框架的有效性. 相似文献

2.

基于异构多核的CCA并行构件模型

彭云峰张炜《计算机应用研究》2014,31(12)

并行构件技术的出现提高了并行软件的开发效率,但现有的并行构件技术缺乏对异构多核平台的支持.为了提高并行构件程序在异构平台上的执行性能,扩展CCA(通用构件体系结构)并行构件模型支持CCA异构并行构件,提出了一种异构的CCA并行构件模型.使用管理者—工人模式调度CCA异构并行构件内的计算任务到异构多核平台上加速执行.在CCA构件工具包的基础上实现了支持扩展CCA并行构件模型的编译系统和运行时框架.在CELL BE和GPU两种异构多核处理器上进行的实验证明了提出的方法比原始的CCA构件程序具有较优的性能.提出的并行构件模型应用在并行程序开发中可以提高并行程序的性能. 相似文献

3.

基于“魔方”的不同编程模型下科学应用性能比较

张丹丹徐磊徐莹《计算机工程与科学》2009,31(Z1)

本文基于魔方(曙光5000A)"超并行"系统架构比较了不同并行编程模型下NAS Parallel Benchmark Multi-Zone的性能。结果表明,在单节点共享内存存储架构下OpenMP编程模型能获得更好性能,跨节点采用混合编程模型能获得更好性能,测试结果为百万亿次系统的使用及应用性能的提升起到指导作用。相似文献

4.

面向国产高性能众核处理器的编程模型

陈虎周鹏灵《计算机应用》2023,(11):3517-3526

在国产高性能众核处理器上编程时，需要直接使用最底层的接口开发软件，这使编程和调试非常困难；并且各自平台的高性能软件编程模型较为基础，计算软件不能通用，造成了重复性开发。针对以上问题，实现了通用编程模型以及所对应的支撑库：一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制；另一方面基于单指令多数据流（SIMD）编程模型开发从核上的数据级并行性。首先，对国产高性能众核处理器体系结构进行抽象；其次，设计模型的消息队列机制，并为程序员提供一套异构并行编程接口，如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口；最后，在上述基础上形成全新的高性能计算软件开发模型和方法，方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明，在国产众核处理器上，当启动核数较少时，所提模型的传输带宽普遍达到了峰值直接内存访问（DMA）带宽的90%；当启动的核数较多时，消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中，与系统原语传输矩阵并计算的性能相比，所提模型的性能达到前者的90%；在口令猜测系统中，所提模型的代码性能与直接使用最底层的接口开发的代... 相似文献

5.

异构并行编程模型研究与进展 总被引：1，自引：0，他引：1

刘颖吕方王蕾陈莉崔慧敏冯晓兵《软件学报》2014,25(7):1459-1475

近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑战提供了相应的解决方案.最后,结合目前的研究现状以及异构系统的发展,提出了异构并行编程模型的未来方向. 相似文献

6.

CC$:一种面向分布式众核平台的并行编程语言 总被引：1，自引：1，他引：0

吴峻峰许跃生张永东江颖叶纬材《计算机科学》2013,40(3):128-132

CC$是一种并行编程语言,目的是解决分布式众核并行计算机的编程困难。CC$的编程模型以Multi BSP 模型为基础,将分布式众核并行计算机的硬件架构抽象为3层。数据按照存储的层次和共享范围分为5类,以便在不同层次上提供共享。LL$还提出一类虚拟指令来解决不同层次之间的数据交换,实现数据访问的逻辑化描述。并行程序按照3层Multi BSP超步嵌套执行。CC$具有统一的编程风格、内建的多层会共地址空间、数据访问请求的表达式描述和数据传输编译优化4大特点。测试表明,CC$程序的运行效率高,易学易用,大幅地缩短了开发周期。相似文献

7.

基于异构平台的BH算法高效并行实现

李婵怡王武冯仰德谢力《计算机应用研究》2016,33(8)

针对多核CPU和众核加速器或协处理器异构平台的架构特征进行了研究,以MPI和OpenMP混合编程模型实现了N体问题BH算法的并行,采用了正交递归二分法（ORB）使进程之间负载均衡,并对程序进行了并行优化和MIC加速。优化和加速后的程序性能提升到原版本的3.4倍以上,其中MIC加速后性能提升到加速前的1.7倍。程序具有较好的扩展性,计算粒子规模达到上亿时,可扩展到32个节点共4480核心（640个CPU核心和3840个MIC核心）相似文献

8.

ParM:基于国产处理器的异构并行编程模型

朱文龙江嘉治黄聃肖侬《计算机工程与科学》2023,(9):1521-1531

随着算力需求的增长，各种国产异构计算设备不断出现，这些设备都有其专用的编程模型，开发者需要根据不同设备的架构特点在专用的编程模型上进行开发，导致开发出的代码在设备间不具有可移植性。近年来国外已经出现了支持多种计算设备的统一异构并行编程模型，但针对国产设备的异构编程模型的研究和实现还比较少。针对该问题，开发了一套性能可移植的异构编程模型ParM。该编程模型以C++库的形式提供，屏蔽了大量的底层实现细节，降低了并行编程难度。该编程框架目前支持的后端设备有x86 CPU、NVIDIA GPU、华为鲲鹏处理器和华为昇腾AI处理器，并且对各种后端设备进行了性能优化。在各种设备上的性能测试表明，ParM编程模型的性能可以达到原始代码的90%以上。相似文献

9.

面向申威异构架构的并行代码自动生成

陶小涵朱雨庞建民赵捷徐金龙《软件学报》2023,34(4):1570-1593

异构架构逐渐成为高性能计算领域的主流架构,但相较于同构多核架构,其硬件结构及存储层次更为复杂,程序编写更为困难.先进的优化编译器可以协助程序开发人员实现更为高效的代码,降低程序开发复杂度.多面体编译模型通过抽象分析将程序抽象成空间多面体表示形式,能够将多种循环变换与硬件映射相结合,并面向特定体系结构生成相应的代码.设计实现了一个面向国产申威异构架构的并行代码自动生成系统,采用“源-源”编译模式,基于多面体编译模型实现.系统针对申威异构架构特点将程序计算过程进行硬件部署,同时实现数据传输与内存空间的自动管理.实验基于Polybench测试集中线性代数相关用例进行测试.结果表明,利用代码自动生成系统生成的异构并行代码能够在申威异构平台上正确运行,并能够有效发挥申威异构平台的性能,基于申威异构平台利用64线程加速计算的平均加速比达到了539.16倍. 相似文献

10.

基于十亿亿次国产超算系统的流体力学软件众核适应性研究

李芳李志辉徐金秀范昊褚学森李新亮《计算机科学》2020,47(1):24-30

国产众核处理器提供了两种移植难度相差较大的众核级并行编程语言。不同流体力学软件对众核架构适应性的不同,决定了它们在移植优化过程中适合于不同的编程语言。首先介绍了国产众核处理器的体系结构、编程模型和并行编程语言;然后分析了流体力学软件应用于国产众核处理器存在的挑战性问题,包括隐格式带来的数据相关性、大型稀疏矩阵线性代数方程组求解、多重网格方法和非结构网格等,这些问题限制了软件对众核架构的适应性。文中针对这些难题分别提出了创新的优化算法,并通过理论分析和实验得到了几种典型流体力学软件的众核适应性研究结论。实践证明,多数流体力学软件对国产众核处理器的适应性良好,能够采用OpenACC编译器自动移植,并扩展到百万核并行规模,能保持较高的并行效率。相似文献

11.

基于申威众核处理器的混合并行遗传算法

赵瑞祥郑凯刘垚王肃刘艳沈焕学周谦豪《计算机应用》2017,37(9):2518-2523

传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法（HBPGA）,并在目前TOP500上排名第一的超级计算机神威"太湖之光"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。相似文献

12.

LU分解在Godson-Tvl众核体系结构上的半行化研究

龙国平范东睿《计算机学报》2009,32(11)

随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新犁众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争. 相似文献

13.

Architecture-based design and optimization of genetic algorithms on multi- and many-core systems

《Future Generation Computer Systems》2014

A Genetic Algorithm (GA) is a heuristic to find exact or approximate solutions to optimization and search problems within an acceptable time. We discuss GAs from an architectural perspective, offering a general analysis of performance of GAs on multi-core CPUs and on many-core GPUs. Based on the widely used Parallel GA (PGA) schemes, we propose the best one for each architecture. More specifically, the Asynchronous Island scheme, Island/Master–Slave Hierarchy PGA and Island/Cellular Hierarchy PGA are the best for multi-core, multi-socket multi-core and many-core architectures, respectively. Optimization approaches and rules based on a deep understanding of multi- and many-core architectures are also analyzed and proposed. Finally, the comparison of GA performance on multi-core and many-core architectures are discussed. Three real GA problems are used as benchmarks to evaluate our analysis and findings.There are three extra contributions compared to previous work. Firstly, our findings based on deeply analyzing architectures can be applied to all GA problems, even for other parallel computing, not for a particular GA problem. Secondly, the performance of GAs in our work not only concerns execution speed, also the solution quality has not been considered seriously enough. Thirdly, we propose the theoretical performance and optimization models of PGA on multi-core and many-core architectures, finding a more practical result of the performance comparison of the GA on these architectures, so that the speedup presented in this work is more reasonable and is a better guide to practical decisions. 相似文献

14.

并行构件技术研究综述

彭云峰姚琳赵冲冲胡长军《计算机科学》2011,38(2):18-27

并行构件技术作为并行软件工程的主要内容之一,对提高并行计算软件的生产率具有重要意义,也是并行软件工程的重要研究内容。并行构件技术研究现状包含并行构件模型、并行构件体系结构规范、并行构件框架3个方面。并行构件、接口、框架的定义和实现是区分不同并行构件体系结构规范的主要标准。如何在实现并行构件复用性的同时提高并行构件组成的应用系统性能,是这些技术发展的共同思想。单构件多数据、多构件多数据编程模型、多语言互操作技术、并行远程方法调用、MxN问题的解决方法、不同模型构件间的互操作都是并行构件领域的研究成果。并行构件技术的发展方向是开展对多语言互操作、性能预测、自适应构件、构件模型的互操作、多核硬件上的并行构件体系结构技术的研究。相似文献

15.

Parallel C语言级容错机制的设计与实现

下载免费PDF全文

何王全方燕飞魏迪董恩铭漆锋滨《计算机工程与应用》2018,54(17):41-49

大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。相似文献

16.

Efficient programming paradigm for video streaming processing on TILE64 platform

Xuan-Yi Lin Kuan-Chou Lai Kuan-Ching Li Yeh-Ching Chung 《The Journal of supercomputing》2013,65(2):823-847

Advances at an unprecedented rate in computer hardware and networking technologies have made the many-core computing affordable and readily available in a matter of few years. Nonetheless, it incurs challenges to programmers to build scalable parallel software. Optimizations of parallel programs for a many-core platform are viewed as a multifaceted problem, where system and architectural factors should be taken into account. In this paper, we tackle this problem by implementing parallel programs with different available programming paradigms and evaluate application behaviors on TILE64 many-core platform. That is, we investigate a hybrid producer-write plus consumer-read shared memory programming paradigm for the implementation of master–worker video decoder and encoder in the referred many-core platform. Experimental results show that the proposed implementation has achieved competitive performance speedup, scaling well with the number of available cores and up to four times of performance improvement over other implementations on the decoding of sample 1080P video. 相似文献

17.

带类型恢复的编译器源源翻译技术

米伟李玉祥陈莉冯晓兵张兆庆《计算机研究与发展》2010,47(7)

源源翻译是使编译器的分析和优化可重定向的一种重要方式.它被广泛用来支持并行语言扩展或者各种体系结构无关的优化,并且可以帮助程序员进行正确性或者性能的调试.在多核/众核时代,程序分析和优化倾向于让用户更多地参与,这种平台无关而且用户友好的代码生成方式也越来越受到欢迎.在简单的编译器中添加源源翻译的支持很容易,但在实现了复杂的程序分析和激进的优化的编译器中,却很少有编译器提供健壮的源源翻译支持.优化对程序结构的改变是造成翻译困难的首要原因.结合大量出错实例对优化给源源翻译带来的困难进行分析,提出了一套基于类型恢复的翻译技术,并在Open64编译器中实现了这种方法.通过supertest和spec2000测试集的测试,验证了这种方法对源源翻译的健壮性有很大改善.该方法的实现模块集成在源源翻译器内,与编译器各种分析优化模块独立,所以该方法容易移植到其他编译器中. 相似文献

18.

Analysis and performance results of computing betweenness centrality on IBM Cyclops64

Guangming Tan Vugranam C. Sreedhar Guang R. Gao 《The Journal of supercomputing》2011,56(1):1-24

This paper presents a joint study of application and architecture to improve the performance and scalability of an irregular application—computing betweenness centrality—on a many-core architecture IBM Cyclops64. The characteristics of unstructured parallelism, dynamically non-contiguous memory access, and low arithmetic intensity in betweenness centrality pose an obstacle to an efficient mapping of parallel algorithms on such many-core architectures. By identifying several key architectural features, we propose and evaluate efficient strategies for achieving scalability on a massive multi-threading many-core architecture. We demonstrate several optimization strategies including multi-grain parallelism, just-in-time locality with explicit memory hierarchy and non-preemptive thread execution, and fine-grain data synchronization. Comparing with a conventional parallel algorithm, we get 4X-50X improvement in performance and 16X improvement in scalability on a 128-cores IBM Cyclops64 simulator. 相似文献