期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张铎王生原董渊《计算机工程》2010,36(21):239-241

基于开源高性能编译器Open64,以PowerPC嵌入式处理器为例,开展重定向关键问题研究和代码实现,自主开发完成一款具有工业产品水准的高性能开源编译器后端。gcc-c.torture和SPEC2000实测结果表明,在正确性和性能方面,该编译器均接近或达到和GCC编译器相当的水平,为进一步研究和应用提供良好的编译工具支持以及实现参考,同时为后续自动重定向等工作奠定基础。相似文献

2.

MPI自动并行化编译系统中消息传递代码生成算法

陈达智赵荣彩姚远韩林《计算机科学》2012,39(6):301-304

传统MPI自动并行化编译系统从数据重分布的角度,生成面向分布式存储系统的消息传递程序,但是大量数据重分布通信的额外开销导致其加速比低。为了解决此问题,在基于Open64的MPI自动并行化编译系统后端,提出了一种消息传递代码生成算法。该算法以统一数据分布为中心,根据给定的并行化循环集和通信数组集,通过修改WHIRL表示的串行代码语法结构树,生成更精确的消息传递代码。实验结果表明,该算法能够较大程度地降低消息传递程序的通信开销,并且明显提升其加速比。相似文献

3.

基于Define-Use图的MPI通信求解算法

下载免费PDF全文

赵捷赵荣彩丁锐陈达智《计算机工程》2012,38(4):247-250

针对分布存储计算机系统并行编译过程中,为维持数据一致性而产生冗余通信的问题,提出一种优化的通信求解算法。该算法基于依赖关系分析和过程间数据流分析,通过遍历Define-Use图,获得更精确的通信数据,消除过程调用时产生的冗余通信。实验结果表明,将算法所得结果作为后端生成MPI通信代码的依据,可以有效减少通信量,加速比接近手工MPI并行程序。相似文献

4.

面向Open64的OpenMP程序优化

刘京郑启龙李彭勇郭连伟《计算机系统应用》2016,25(1):154-159

OpenMP规范了一系列的编译制导、环境变量和运行库,具有简单、可移植、支持增量并行等优点.但同时,采用FORK-JOIN模型所引起的频繁的线程管理开销也是制约OpenMP程序性能的瓶颈之一.本文讨论了如何利用并行区的合并与扩展,实现并行区的重构,并在此基础上利用Open64的IPA优化部件所提供的全局间过程分析能力,实现跨越过程边界的并行块的合并.最终实验表明,该方法有效地改进了OpenMP程序的运行性能. 相似文献

5.

基于IBA构建高性能的MPI环境

李海军《计算机工程与应用》2004,40(15):46-48,87

IBA作为一种I/O间、主机间的下一代高速互联方式,在高性能计算领域越来越成为瞩目的焦点。消息传递接口MPI已经成为并行程序设计事实上的国际标准。该文详细介绍了在IBA之上构建一个高性能的MPI环境的方法,并对消息延迟和消息带宽进行了测试,对测试数据进行了分析。相似文献

6.

一个出具证明编译器后端的设计与实现

下载免费PDF全文

田波陈意云王伟李兆鹏王志芳《计算机工程》2009,35(7):132-135

设计并实现一个类C语言PointerC的出具证明编译器后端。该后端采用最强后条件演算同步处理整型断言和指针断言实现整型验证条件和指针验证条件的证明,能够完全自动地产生目标级程序的指针安全性证明,处理常见递归数据结构中的非一致性别名问题。后端包括独立的定理检查器,能够检验携证明代码的完整性。相似文献

7.

面向大规模MPI程序的应用级checkpointing技术

王攀峰杜云飞周海芳杨学军《计算机研究与发展》2009,46(Z2)

应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术.但是应用级checkpointing技术要求用户决定哪些是需要保存的关键数据,这增加了用户的负担.介绍一个基于MPI并行程序活跃变量分析的源到源的预编译工具ALEC,它可用于辅助应用级checkpointing.在一个512处理器的Cluster系统上,对经过ALEC编译的5个Fortran/MPI应用进行了性能评测.结果表明,ALEC能够有效减小checkpoint的大小和应用级checkpointing保存和恢复的开销. 相似文献

8.

面向嵌入式系统的优化编译器生成器设计 总被引：4，自引：0，他引：4

朱德新谢丹夏程旭《小型微型计算机系统》2002,23(1):1-3

构造嵌入式系统是一个硬件软件的协同设计问题 .嵌入式软件的有效开发需要相应编译器的支持 .由于嵌入式系统存储空间有限 ,所以编译器生成的机器代码必须非常紧凑 .我们可以使用编译器的生成器来提高编译器的开发效率 .本文给出了一种编译器生成器的设计原理 ,利用该编译器生成器可以迅速生成面向某种指令系统和机器特征 ,并且能够对输出代码进行自动紧凑的编译器相似文献

9.

面向媒体处理器可重定目标编译器的代码生成 总被引：1，自引：1，他引：0

下载免费PDF全文

琚小明张召史册《计算机工程》2009,35(11):13-15,1

在可重定目标编译器的设计与实现中,RTL中间表示具有内部的树结构表示形式和外部的正文表示形式的特性,使RTL适合作为可重定目标编译器中的中间表示。利用RTL的这种双重特性,提出适用于可重定目标编译器的代码生成技术,通过树模式匹配的方法建立中间表示与机器描述中指令模板的映射关系,实现汇编代码的输出。通过MD32Builder集成环境的构建,证明该技术简单易行。相似文献

10.

面向高性能应用的MPI大数据处理

王鹏周岩《计算机应用》2018,38(12):3496-3499

针对消息传递接口（MPI）在高性能计算领域的应用场景,为了优化MPI现有数据集中管理模式,增强其对大数据的处理能力,借鉴并行与分布式系统思想,开发设计一套适用于大数据处理的基于MPI的数据存储组件（MPI-DSP）。首先,创建接口函数,以对MPI系统影响最小的方式实现"计算向存储迁移"的设计目标,将文件分配与计算进行分离,使MPI突破大数据文件读取时的网络传输瓶颈。然后,分析阐述设计目标、运行机制、实现策略,通过描述接口函数MPI_Open在MPI环境下的应用,验证设计理念。通过Wordcount实验对比使用MPI-DSP组件与原MPI在数据文件处理方面的时间性能,初步验证了MPI"计算向存储迁移"模式的可行性,使其具备在高性能应用场景下的大数据处理能力。同时分析了MPI-DSP的适用环境和局限性,界定了其应用范围。相似文献

11.

基于Open64上的特殊指令合成策略研究与实现

《软件工程师》2018,(2):14-17

Open64是一个拥有GNU通用公共许可证的开源高性能编译器,设计结构好,分析优化全面,是编译器高级研究的理想平台。本文针对BWDSP处理器所提供的高效特殊运算指令,在Open64基础上研究并实现了面向BWDSP中的特殊指令合成策略。该策略通过扩展并重定向编译器后端模块,能够充分地利用BWDSP中的复数指令、累加指令、乘累加指令和平方和指令等特殊指令。实验结果表明,本文提出的特殊指令合成策略能够很大程度上提高程序的性能。相似文献

12.

使用OpenMP+MPI的矩阵乘法并行实现

苟悦宬《广东电脑与电讯》2022,(3):77-80

相似文献

13.

面向VLIW DSP结构的编译器的设计与实现

王敏王红梅张铁军单睿王东辉《微计算机应用》2009,30(7)

VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大.本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器.利用伪数据类型和Intrinsic函数结合,在编译器中构建了对SIMD功能的支持.实验结果显示,对比基于GCC版本的编译器,该编译器生成的指令数平均下降42%,并行包数下降30%. 相似文献

14.

MPI环境下的聚类并行化研究

朱映辉刘波《电脑开发与应用》2005,18(9):35-36,39

根据集群的特点和聚类的特性,从理论上探讨了聚类并行化的可行性,并在此基础上用实验进行了验证,结果表明通过这些改进能够获得比较理想的性能。相似文献

15.

RoCE协议下基于在网计算的MPI通信优化

李嘉群蔡文杰沈瑜齐法制曾珊李京《计算机系统应用》2022,31(11):320-329

高性能计算中,通信上的巨大开销已成为其算力提升的主要瓶颈之一,通信性能的优化一直是一个重要挑战.针对通信优化任务,提出一种基于在网计算技术降低通信开销的方法.该方法在基于以太网的超算环境下,利用RoCEv2协议、可编程交换机以及OpenMPI,实现将归约计算卸载到可编程交换机,支持Node和Socket两种通信模式.在真实超算环境下开展了集合通信基准测试和OpenFOAM应用测试实验,结果表明,当服务器节点数达到一定规模时,该方法在Node和Socket两种模式下相较于传统的主机通信,均呈现出较好的性能提升,其中集合通信基准测试有10%–30%左右性能提升,在应用级测试中应用整体性能有1%–5%左右提升. 相似文献

16.

一种面向编译器的数据访问节能技术研究

下载免费PDF全文

张凌杰《计算机测量与控制》2014,22(12)

当前针对磁盘功率管理的大部分研究都是把重点放在磁盘空闲周期的利用上;人们相继研究了硬件功率节约机制(比如降速磁盘和多速磁盘)和补充性的软件策略(比如改变代码和数据布局,以提高空闲周期的长度);然而,硬件功率节约机制无法处理高能耗并行应用的短空闲周期,而代码/数据重组策略往往要求大规模的代码更改;提出一种面向编译器的数据访问(I/O调用)调度技术,以节约磁盘能量,在更短的周期内聚集了尽可能多的数据请求,进而延长了磁盘空闲周期,提升硬件功率管理机制的有效性;与先前基于软件的策略相比,该技术不需重组代码或数据;在基于集群的仿真环境下结合6种应用程序对该方法进行评估;结果表明,该方法提升了降速磁盘和多速磁盘的性能,将功率节约平均效果提升了一倍。相似文献

17.

swLLVM: 面向神威新一代超级计算机的优化编译器

沈莉周文浩王飞肖谦武文浩张鲁飞安虹漆锋滨《软件学报》2024,35(5):2359-2378

异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%. 相似文献

18.

基于MPI的大规模栅格影像并行瓦片化算法

下载免费PDF全文

刘世永陈荦熊伟吴烨李军《计算机工程与应用》2018,54(1):48-53

当前主流GIS软件以及互联网地图应用在WebGIS（网络地理信息系统）解决方案中都广泛采用地图切片（又称瓦片）,切片处理服务是实现影像在WebGIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化方面的不足,提出一种名为ParaTile的高效栅格影像快速瓦片化方法,ParaTile基于MPI共享外存的并行技术,利用多进程对原始栅格影像进行数据划分,每个进程对其所划分的区域进行独立读写和计算,而后再按照TMS或者Google Tile定义的标准将瓦片进行编码输出。实验采用不同级别大小的遥感影像进行测试,结果表明ParaTile在面对不同规模的数据时,无论从速度还是算法稳定性上都较现有算法和工具具有显著优势,特别是当数据量越大时,这种优势愈加明显。相似文献

19.

OpenFoam中多面体网格生成的MPI+OpenMP混合并行方法

刘江刘文博张矩《计算机科学》2022,49(3):3-10

网格生成是计算流体力学中非常重要的一环,大规模数值模拟过程中对网格精度要求的提高会导致网格生成所耗的时间增加。文中基于OpenFoam开源软件中的网格生成算法,主要研究多面体网格的并行生成,并提出OpenMP和MPI混合并行的多面体网格生成方法。通过理论分析得到,使用混合并行方法生成相同质量的网格时,混合并行方法生成网格的时间消耗随着线程数量和网格单元数量的增加而减少。3组使用不同求解器的数值模拟实验结果表明,该混合并行方法不但可以保证生成网格的质量——可以正常进行数值计算模拟且模拟结果与原方法相比几乎没有差别,而且生成同样质量与数量网格的耗时最多可以缩短至未使用OpenMP并行方法之耗时的1/4以内。相似文献

20.

PGI Accelerator编译器支持英伟达全新Tesla K20系列GPU加速器

《微电脑世界》2012,(12):18

2012年11月意法半导体全资子公司、全球领先的高性能计算(HPC)编译器供应商Portland Group宣布,定于12月初发布的PGI 2013版PGI Accelerator编译器支持英伟达NVIDIA Tesla K20系列GPU加速器以及CUDA5并行计算平台及编程模型。科学家和工程师采用PGI编译器及编程工具开发和运行高性能计算应用软件,在天气预报、地理信息处理、空气动力学仿真、结相似文献