排序方式: 共有49条查询结果,搜索用时 0 毫秒
1.
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。 相似文献
2.
对基于通用信息模型(CIM)面向N×M结构的容灾系统进行了扩展与裁剪,建立了容灾系统信息模型DTCIM.在分析CIM基础之上,详细说明了该模型的体系结构和模型内容,在Linux下基于Pegasus实现了这个信息模型,并验证了其可行性,为容灾系统的资源信息表示与管理提供了一种统一的方式,给出了容灾系统的信息模型表示方法,为进一步深入研究容灾系统打下了良好基础. 相似文献
3.
一种面向多核系统的并行计算任务分配方法 总被引:2,自引:0,他引:2
随着多核处理器的普及,目前的大规模并行处理系统普遍采用多核处理器,这对于资源管理和调度提出了更高的要求.提出了基于共享Cache资源划分的方法,建立了面向多核处理器支持Cache资源分配的进程调度模型,设计并实现了并行任务到多核处理器的映射算法,更好地解决了大规模资源管理系统中面向多核处理器的任务分配问题,降低了使用共享Cache的多个进程运行时的相互干扰,提升了应用程序性能. 相似文献
4.
网格重排序是提升流体力学CPU和GPU并行计算效率的重要手段之一。对于非结构网格,由于其数据存储无规律,数据的间接访问会导致访存延迟,尤其是在GPU并行计算时,数据的间接访问将引起内存的非对齐访问,放大了访存延迟的影响。对此,采用Reverse Cuthill-Mckee网格重排序方法优化了非结构网格的数据局部性,并设计了一种面向编号重排序方法。算例测试表明,网格重排序不影响最终计算结果。对比分析了网格重排序对非结构求解器在CPU和GPU上的性能影响:对CPU计算,可以使部分热点函数运行时间降低约20%,整体运行时间降低15%~20%;对GPU计算,大部分热点函数运行时间可降低35%~60%,程序整体运行时间降低约40%。 相似文献
5.
卢宇彤 《计算机工程与科学》2012,34(8):17-23
高性能计算技术以加速度迅猛发展,继千万亿次系统研制成功以后,超级计算机的性能又快速提升至数万万亿次,国际学术界与工业界普遍预期在2018年左右将出现极大规模并行的百万万亿次系统(Exascale Computing,简称E级系统)。本文从最新一届TOP500榜单入手分析了超级计算领域的技术动态,在此基础上,探讨了未来E级系统的发展趋势及其所面临的能耗、可扩展、可靠性和可编程性等关键技术问题。 相似文献
6.
8.
9.
一个基于网络并行计算环境的动态负载分配算法 总被引:8,自引:0,他引:8
网络并行计算系统具有大量的自主的计算资源,如何充分发挥它们的潜在性能,这正是负载平衡的研究内容。文中描述一个基于网络并行计算环境的动态负载分配算法,该算法能够根据系统的状态和任务之间的通信关系动态地分配系统中的负载,以实现系统的动态负载平衡。通过应用实例测试说明该算法在稳定性和性能上,优于稳定的发送者动自适应算法。 相似文献
10.
随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能,进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较. 相似文献