期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李浩然王磊《计算机系统应用》2021,30(7):246-252

BLAS (Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准, 该库函数分为三个级别, 每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算. 本文研究了在申威1621处理器上BLAS一级函数的优化方案, 以函数AXPY为例, 充分... 相似文献

2.

面向SW26010-Pro的1、2级BLAS函数众核并行优化技术

下载免费PDF全文

胡怡陈道琨杨超刘芳芳马文静尹万旺袁欣辉林蓉芬《软件学报》2023,34(9):4421-4436

BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用... 相似文献

3.

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

下载免费PDF全文

胡怡陈道琨杨超马文静刘芳芳宋超博孙强史俊达《软件学报》2024,35(3):1569-1584

BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外, BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access, RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access, DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术... 相似文献

4.

面向申威众核处理器的LZMA并行算法设计与优化

李秉政黄高阳许瑾晨《计算机科学与探索》2020,14(9):1501-1509

相似文献

5.

基于申威众核处理器的圣维南求解程序的并行与优化

丁哲昭储根深胡长军李扬《计算机工程与科学》2021,43(5):820-829

圣维南方程组可用于描述明渠非恒定流的汇流过程,在大规模水文模拟软件中,求该方程组的数值解是制约程序运行时间的最大瓶颈.通过分析串行程序结构及其计算热点,挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性,针对"神威·太湖之光"超级计算机的异构众核架构设计主从核异步并行方案,基于MPI和athread库对求解程... 相似文献

6.

基于申威众核处理器的混合并行遗传算法

赵瑞祥郑凯刘垚王肃刘艳沈焕学周谦豪《计算机应用》2017,37(9):2518-2523

传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了\"粗粒度-主从式\"混合式并行遗传算法（HBPGA）,并在目前TOP500上排名第一的超级计算机神威\"太湖之光\"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。相似文献

7.

基于申威众核处理器的NSGA-Ⅱ并行和优化方法

刘垚郑琳郑凯王肃廖启丹《计算机应用研究》2020,37(1):96-101

由申威众核处理器组成的“神威·太湖之光”是当前我国性能最高的超级计算机,可为大规模NSGA-Ⅱ求解提供硬件平台。基于硬件架构特点,设计了分岛/主从增强混合并行NSGA-Ⅱ。在主从模式基础上,利用从核间寄存器通信,实现核组内从核局部数据存储的共享。优化流程,实现更多算法模块在从核上的并行。运用DMA传输、向量化、双缓冲、存储优化等方法显著提高加速比。实验表明,优化的并行NSGA-Ⅱ在申威众核处理器上具有良好的加速比和扩展性。相似文献

8.

申威众核处理器的并行NSGA-II算法

下载免费PDF全文

沈焕学郑凯刘垚王肃刘艳赵瑞祥周谦豪《计算机工程与应用》2018,54(17):35-40

非支配排序遗传算法（NSGA-II）在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算“神威·太湖之光”的申威众核处理器平台设计了并行NSGA-II算法（PNSGA-II）,实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-II算法不仅大大加快了执行速度,同时算法的收敛速度也更快。相似文献

9.

快速多极子方法在申威众核处理器上的实现和优化

王武王舒扬姜金荣孟虹松《计算机工程与科学》2019,41(7):1161-1167

快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250 GFLOPS,即理论峰值性能的32.5%。相似文献

10.

面向申威众核处理器的并行SaNSDE算法

康上钱雪忠甘霖《计算机科学与探索》2021,15(10):2015-2024

演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域.然而在求解高维度、高计算密度问题时,程序性能很难得到保证.在高性能计算机上实现并行化是问题的一个热门解决方案.针对申威众核处理器的硬件特征,提出了采用二级并行策略的自适应邻域搜索的差分进化算法(SaNSDE).... 相似文献

11.

异构多核上多级并行模型支持及性能优化

下载免费PDF全文

李士刚胡长军王珏李建江《软件学报》2013,24(12):2782-2796

低功耗及廉价性使得异构多核在超级计算机计算资源中占有重要比例.然而,异构多核具有高带宽及松耦合一致性等特点,获得理想的存储及计算性能需要更多地考虑底层硬件细节.实现了一种针对典型的异构多核Cell BE 处理器的多级并行模型CellMLP,通过C 语言扩展编译指导语句,实现了对数据并行、任务并行以及流水并行编程模型的支持,提高了并行程序生产率.运行支持优化方面,数据并行采用SPE 并行数据传输、双缓冲等优化手段来提高数据传输带宽;任务并行使用一种新式混合任务队列以支持异步任务窃取,降低SPE 线程间竞争,提高了任务并行的可扩展性;流水并行首次使用阻塞信号传输机制实现SPE 线程间的低开销同步操作.实验对Stream,NASBenchmark 及BOTS 等应用进行了测试,结果表明,CellMLP 可对多种典型并行应用进行高效支持.与目前同类编程模型SARC 及CellSs 进行性能对比,其结果表明,CellMLP 实际数据传输带宽以及非规则应用的支持方面具有明显优势. 相似文献

12.

异构多核上支持OpenMP3.0的自适应任务粒度策略

曹倩左敏《小型微型计算机系统》2012,33(6):1350-1357

任务粒度是决定任务并行程序性能的关键因素,鉴于不同应用其最优的任务粒度可能不同,提出一种异构多核Cell处理器上支持OpenMP3.0的自适应任务粒度策略.该策略首先广度生成任务,直到所有的线程达到饱和,之后若某个线程执行完自身任务而处于空闲状态时,通过回溯到忙碌线程的任务树中最早可以派生任务的结点处生成新任务,以供空闲线程窃取执行.该策略不仅保证生成的任务粒度最大化,并且有效地解决了负载不均衡问题.实验在一个Cell处理器上进行,结果表明与顺序执行速度相比,自适应任务粒度策略达到了4.1到7.2的加速比,并且该策略优于现有的Tascell和AdaptiveTC方案,同时对于绝大部分应用表现出了良好的可扩展行. 相似文献

13.

S-Bridge:性能非对称多核处理器下负载均衡代理机制

下载免费PDF全文

赵姗郝春亮翟健李明树《软件学报》2020,31(9):2965-2979

近年来,在移动计算环境中,异构多核处理器已经逐渐成为主流.与传统同构的处理器设计相比,此类异构多核处理器以更低的功耗成本满足设备的计算需求.但是异构环境下CPU核之间的微架构差异,也为操作系统中的一些基本方法提出了新的挑战.面向性能非对称异构多核环境下调度的负载均衡问题,从系统层面提出了一种负载均衡机制S-Bridge,可以减少处理器微架构差异以及任务执行需求差异对传统负载均衡带来的影响.S-Bridge的主要贡献是从系统层提供了通用的、适配异构性的负载均衡相关接口,使任意调度器都能方便地与异构多核处理器系统进行适配.基于CFS和HMP调度器在ARM平台上进行实验,同时在X86平台上进行S-Bridge通用性的验证,结果表明:S-Bridge可以支持不同真实平台和内核版本的快速实现,平均性能提升超过15%,部分情况下可达65%. 相似文献

14.

Data dependence and its application to parallel processing 总被引：8，自引：0，他引：8

Michael Wolfe Utpal Banerjee 《International journal of parallel programming》1987,16(2):137-178

Data dependence testing is required to detect parallelism in programs. In this paper data dependence concepts and data dependence direction vectors are reviewed. Data dependence computation in parallel and vector constructs as well as serialdo loops is covered. Several transformations that require data dependence are given as examples, such as vectorization (translating serial code into vector code), concurrentization (translating serial code into concurrent code for multiprocessors), scalarization (translating vector or concurrent code into serial code for a scalar uniprocessor), loop interchanging and loop fusion. The details of data dependence testing including several data dependence decision algorithms are given. 相似文献

15.

异构多核系统任务调度算法研究

赵国亮李云飞王川《计算机工程与设计》2014,35(9)

为解决异构多核系统任务调度问题,提出一种混合静态调度算法——HSCGS (hybrid successor concerned genetic scheduling),该算法分为启发式算法和遗传算法2个阶段.第1阶段采用所提出的考虑后继节点的列表启发式调度算法(SCLS)产生一个近似最优的调度结果;第2阶段采用针对调度问题改进的遗传算法IGA (improved genetic algorithm),对第1阶段产生的调度结果进行优化.将SCLS与StarPU相结合,实现一种动态调度算法——DSCLS(dynamic successor concerned list scheduling),通过与StarPU上已有调度算法的对比实验表明了DSCLS算法在运行时间和系统吞吐量两方面的优势. 相似文献

16.

基于申威1600的3级BLAS GEMM函数优化

下载免费PDF全文

刘昊刘芳芳张鹏杨超蒋丽娟《计算机系统应用》2016,25(12):234-239

BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库GotoBLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. 相似文献

17.

单片多处理器的研究*

史莉雯樊晓桠张盛兵《计算机应用研究》2007,24(9):46-49

单片多处理器结构支持较高线程级的并行,能显著提高性能.介绍了单片多处理器的结构,对一些结构模型和实际的商用处理器进行举例,并对关键技术进行了研究分析. 相似文献

18.

并行图形绘制技术综述

下载免费PDF全文

韩伟杰李晓梅张文《计算机工程》2010,36(1):221-223

为研究并行图形绘制技术,介绍图形绘制的流水线过程,对其内在的可并行性进行分析,研究并行绘制的实现方式,包括流水线并行、数据并行和作业并行,以及前分布拼接合成、中分布拼接合成和后分布拼接合成,讨论并行绘制面临的主要问题及其发展趋势。相似文献

19.

基于多目标遗传算法的单指令集异构多核系统静态任务调度

徐远超张志敏蒋毅飞《小型微型计算机系统》2012,(10):2237-2242

与同构多核处理器相比,单指令集异构多核处理器能够更好的匹配程序行为的多样性,从而具有更好的性能功耗比.异构多核处理器的能效优势依赖于操作系统合理而有效的调度,追求性能与功耗的统一,是典型的多目标优化问题.提出将多目标优化遗传算法应用于寻找异构多核环境下最优的静态任务调度方案,提出表征任务相对顺序的染色体编码结构,使种群初始化时的有效个体所占比例变为100%.提出使用先序关系矩阵来确定任务的执行顺序,克服了高度值方法存在的严重不足.仿真结果表明,先序关系矩阵方法能扩大搜索范围,在种群规模足够大时,可以找到高度值方法漏掉的部分最优解. 相似文献

20.

数据并行语言中的任务并行

刘振英方滨兴《计算机工程与应用》1999,35(10):43-45

数据并行虽然已经获得了广泛的应用,但是,仍然有一些应用程序不适于数据并行语言的并行模式,如树结构算法。数据并行与任务并行的结合可以很好地解决这些问题。该文主要讨论了在数据并行中引入任务并行时,遇到的共享变量、代码生成和处理器分配等问题,比较和分析了基于编译、基于语言和基于协作库的方法。相似文献