共查询到10条相似文献,搜索用时 15 毫秒
1.
介绍在传统检查点技术的基础上提出一种面向分布式共享主存结构计算机节点瞬时故障的动态检查点技术。通过对节点及其运行进程的实时监控数据的分析,给出检查点的引入、保存、恢复和取消的容错技术策略。同时分析该技术在一定的故障模型下,对不同应用程序的有效程度及其应用开销。目的是希望使检查点序列在覆盖故障点的同时,尽可能降低保存检查点的次数,提高系统运行效率。 相似文献
2.
3.
李飞飞 《数字社区&智能家居》2011,(4)
为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。 相似文献
4.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。 相似文献
5.
针对嵌入式Linux系统的特点,通过设置检查点(checkpoint)实现ARM平台进程级容错。在检查点工作时,通过/proc文件系统与内核进行交互,实时地获取与进程有关的PID、CPU状态以及内存信息,并保存在存储介质中。当进程出现故障后,将上述与进程有关的状态信息进行恢复,从而实现进程级容错。实验表明,该进程级容错系统有较好的容错能力,极大地缩短了进程恢复的时间。 相似文献
6.
7.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术 相似文献
8.
9.
减少检查点开销的一种方法 总被引:1,自引:0,他引:1
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。 相似文献
10.
一种基于扩展数据流分析的OpenMP程序应用级检查点机制 总被引:1,自引:0,他引:1
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决方案都依赖于特殊的运行时库或硬件平台.该文提出一种编译辅助的OpenMP应用级检查点,它是一种平台无关的方案,通过面向OpenMP的扩展数据流分析选择那些"必需"的变量保存到检查点映像,从而降低容错的开销,同时通过运行一种非阻塞式的协议维护检查点的全局一致性.文章讨论了该机制的各个关键问题,并通过实验评测以及与同类工作的比较,表明了该文所提出的检查点机制在容错性能方面的优势. 相似文献