共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
3.
4.
5.
李海军 《计算机工程与应用》2004,40(15):46-48,87
IBA作为一种I/O间、主机间的下一代高速互联方式,在高性能计算领域越来越成为瞩目的焦点。消息传递接口MPI已经成为并行程序设计事实上的国际标准。该文详细介绍了在IBA之上构建一个高性能的MPI环境的方法,并对消息延迟和消息带宽进行了测试,对测试数据进行了分析。 相似文献
6.
7.
应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术.但是应用级checkpointing技术要求用户决定哪些是需要保存的关键数据,这增加了用户的负担.介绍一个基于MPI并行程序活跃变量分析的源到源的预编译工具ALEC,它可用于辅助应用级checkpointing.在一个512处理器的Cluster系统上,对经过ALEC编译的5个Fortran/MPI应用进行了性能评测.结果表明,ALEC能够有效减小checkpoint的大小和应用级checkpointing保存和恢复的开销. 相似文献
8.
面向嵌入式系统的优化编译器生成器设计 总被引:4,自引:0,他引:4
构造嵌入式系统是一个硬件软件的协同设计问题 .嵌入式软件的有效开发需要相应编译器的支持 .由于嵌入式系统存储空间有限 ,所以编译器生成的机器代码必须非常紧凑 .我们可以使用编译器的生成器来提高编译器的开发效率 .本文给出了一种编译器生成器的设计原理 ,利用该编译器生成器可以迅速生成面向某种指令系统和机器特征 ,并且能够对输出代码进行自动紧凑的编译器 相似文献
9.
10.
针对消息传递接口(MPI)在高性能计算领域的应用场景,为了优化MPI现有数据集中管理模式,增强其对大数据的处理能力,借鉴并行与分布式系统思想,开发设计一套适用于大数据处理的基于MPI的数据存储组件(MPI-DSP)。首先,创建接口函数,以对MPI系统影响最小的方式实现"计算向存储迁移"的设计目标,将文件分配与计算进行分离,使MPI突破大数据文件读取时的网络传输瓶颈。然后,分析阐述设计目标、运行机制、实现策略,通过描述接口函数MPI_Open在MPI环境下的应用,验证设计理念。通过Wordcount实验对比使用MPI-DSP组件与原MPI在数据文件处理方面的时间性能,初步验证了MPI"计算向存储迁移"模式的可行性,使其具备在高性能应用场景下的大数据处理能力。同时分析了MPI-DSP的适用环境和局限性,界定了其应用范围。 相似文献
11.
12.
13.
14.
根据集群的特点和聚类的特性,从理论上探讨了聚类并行化的可行性,并在此基础上用实验进行了验证,结果表明通过这些改进能够获得比较理想的性能。 相似文献
15.
高性能计算中,通信上的巨大开销已成为其算力提升的主要瓶颈之一,通信性能的优化一直是一个重要挑战.针对通信优化任务,提出一种基于在网计算技术降低通信开销的方法.该方法在基于以太网的超算环境下,利用RoCEv2协议、可编程交换机以及OpenMPI,实现将归约计算卸载到可编程交换机,支持Node和Socket两种通信模式.在真实超算环境下开展了集合通信基准测试和OpenFOAM应用测试实验,结果表明,当服务器节点数达到一定规模时,该方法在Node和Socket两种模式下相较于传统的主机通信,均呈现出较好的性能提升,其中集合通信基准测试有10%–30%左右性能提升,在应用级测试中应用整体性能有1%–5%左右提升. 相似文献
16.
张凌杰 《计算机测量与控制》2014,22(12)
当前针对磁盘功率管理的大部分研究都是把重点放在磁盘空闲周期的利用上;人们相继研究了硬件功率节约机制(比如降速磁盘和多速磁盘)和补充性的软件策略(比如改变代码和数据布局,以提高空闲周期的长度);然而,硬件功率节约机制无法处理高能耗并行应用的短空闲周期,而代码/数据重组策略往往要求大规模的代码更改;提出一种面向编译器的数据访问(I/O调用)调度技术,以节约磁盘能量,在更短的周期内聚集了尽可能多的数据请求,进而延长了磁盘空闲周期,提升硬件功率管理机制的有效性;与先前基于软件的策略相比,该技术不需重组代码或数据;在基于集群的仿真环境下结合6种应用程序对该方法进行评估;结果表明,该方法提升了降速磁盘和多速磁盘的性能,将功率节约平均效果提升了一倍。 相似文献
17.
异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%. 相似文献
18.
当前主流GIS软件以及互联网地图应用在WebGIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在WebGIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化方面的不足,提出一种名为ParaTile的高效栅格影像快速瓦片化方法,ParaTile基于MPI共享外存的并行技术,利用多进程对原始栅格影像进行数据划分,每个进程对其所划分的区域进行独立读写和计算,而后再按照TMS或者Google Tile定义的标准将瓦片进行编码输出。实验采用不同级别大小的遥感影像进行测试,结果表明ParaTile在面对不同规模的数据时,无论从速度还是算法稳定性上都较现有算法和工具具有显著优势,特别是当数据量越大时,这种优势愈加明显。 相似文献
19.
网格生成是计算流体力学中非常重要的一环,大规模数值模拟过程中对网格精度要求的提高会导致网格生成所耗的时间增加。文中基于OpenFoam开源软件中的网格生成算法,主要研究多面体网格的并行生成,并提出OpenMP和MPI混合并行的多面体网格生成方法。通过理论分析得到,使用混合并行方法生成相同质量的网格时,混合并行方法生成网格的时间消耗随着线程数量和网格单元数量的增加而减少。3组使用不同求解器的数值模拟实验结果表明,该混合并行方法不但可以保证生成网格的质量——可以正常进行数值计算模拟且模拟结果与原方法相比几乎没有差别,而且生成同样质量与数量网格的耗时最多可以缩短至未使用OpenMP并行方法之耗时的1/4以内。 相似文献