首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
介绍在传统检查点技术的基础上提出一种面向分布式共享主存结构计算机节点瞬时故障的动态检查点技术。通过对节点及其运行进程的实时监控数据的分析,给出检查点的引入、保存、恢复和取消的容错技术策略。同时分析该技术在一定的故障模型下,对不同应用程序的有效程度及其应用开销。目的是希望使检查点序列在覆盖故障点的同时,尽可能降低保存检查点的次数,提高系统运行效率。  相似文献   

2.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

3.
为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。  相似文献   

4.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。  相似文献   

5.
针对嵌入式Linux系统的特点,通过设置检查点(checkpoint)实现ARM平台进程级容错。在检查点工作时,通过/proc文件系统与内核进行交互,实时地获取与进程有关的PID、CPU状态以及内存信息,并保存在存储介质中。当进程出现故障后,将上述与进程有关的状态信息进行恢复,从而实现进程级容错。实验表明,该进程级容错系统有较好的容错能力,极大地缩短了进程恢复的时间。  相似文献   

6.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。  相似文献   

7.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术  相似文献   

8.
容错技术中硬件冗余会产生较高的设计和生产成本.针对该问题,提出一种改进的实时嵌入式系统容错优化方法,基于检查点容错技术综合分析系统故障性能、硬实时任务时间约束和软实时任务的效用函数值.以设计的容错模型为基础,计算系统故障概率保证其在故障最大概率值内,给出硬任务截止时间确定可调度性,并应用改进的禁忌搜索算法获得软任务效用函数最佳值,算法有2种简单的邻节点结构,其禁忌准则遵循邻节点方法禁忌,优化效率明显改善.实验结果表明,该方法可进行故障分析等综合分析,并能迅速获得最大效用函数值.  相似文献   

9.
减少检查点开销的一种方法   总被引:1,自引:0,他引:1  
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。  相似文献   

10.
一种基于扩展数据流分析的OpenMP程序应用级检查点机制   总被引:1,自引:0,他引:1  
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决方案都依赖于特殊的运行时库或硬件平台.该文提出一种编译辅助的OpenMP应用级检查点,它是一种平台无关的方案,通过面向OpenMP的扩展数据流分析选择那些"必需"的变量保存到检查点映像,从而降低容错的开销,同时通过运行一种非阻塞式的协议维护检查点的全局一致性.文章讨论了该机制的各个关键问题,并通过实验评测以及与同类工作的比较,表明了该文所提出的检查点机制在容错性能方面的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号