首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 138 毫秒
1.
检查点技术是一种回溯和恢复的技术,在并行应用环境中,作用尤为突出。它定期保存程序的运行状态,以便需要时能及时从中恢复。本文系统介绍了检查点技术的基本概念和实现细节,详细阐述了MPP机检查点系统的设计思想,探讨了其中的主要问题-检查点的状态一致性以及检查点的性能优化措施。本文的结论是:我们能够在MP系统中实现高效的检查点技术,以此来提高此类系统的可用性。  相似文献   

2.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

3.
基于Lustre文件系统的MPI检查点系统实现技术与性能测试   总被引:1,自引:0,他引:1  
基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性.  相似文献   

4.
本文详细地介绍condor检查点机制和condor的工作原理,对condor的检查点机制进行了配置。通过一个具体的作业调度程序成功地测试了condor的检查点的正确性、检查点功能的可用性和检查点库提供的一些编程接口API的可用性。  相似文献   

5.
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。  相似文献   

6.
基于Linux内核的进程检查点系统设计与实现   总被引:1,自引:0,他引:1  
作为一种流行的软件容错机制,检查点与恢复技术的实现模式有两种:用户级和系统级.首先阐述了两者的区别,然后根据Linux可加栽内核模块机制提出了一种基于Linux内核的进程检查点与恢复实现方法.利用Linux内核线程实现了检查点与恢复内核模块,并基于此内核模块在用户层构造了一检查点函数库,为用户提供了相应接口.用户通过组合使用这些接口可以高效地实现具体检查点与恢复算法.  相似文献   

7.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

8.
支持文件迁移的Linux检查点机制的实现   总被引:2,自引:2,他引:0       下载免费PDF全文
杨晖  陈闳中 《计算机工程》2010,36(3):266-268
在BLCR系统的基础上实现一种支持进程打开文件迁移的检查点机制,给出该机制的总体框架、关键技术、进程打开文件保存恢复、状态保存和恢复的流程。实验结果表明,该机制支持多线程、信号、进程打开文件及管道等的保存与恢复,无需重编译内核,对用户具有良好的透明性。  相似文献   

9.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。  相似文献   

10.
张昊  范新媛  徐国治 《计算机仿真》2004,21(11):243-246
近年来,一种新兴的软件容错技术Rejuvenation得到了广泛研究。该文将这项技术与传统的检查点技术相结合,提出了一种保障系统可靠性的容错策略,利用流体随机Petri网(Fluid Stochastic Petri Net,FSPN)这一模型描述语言,建立结合Rejuvenation和检查点技术的软件系统工作模型,并以执行这一策略后系统的丢包率和总损失作为性能指标。对模型的数值分析和仿真表明,这项技术较之单纯的检查点技术,可以大大降低丢包率,提高系统可靠性。最后,根据系统损失函数,可以确定执行Rejuvenation的最优策略。  相似文献   

11.
基于blcr软件,在Linux内核层,设计会话断点保存与恢复软件。该软件可在同一个会话内、进程间实现同步断点保存与恢复,无须改变进程间的相互依赖关系。应用结果表明,将该软件集成到Torque/Maui集群管理和调度系统中,可对用户运行程序进行透明的断点保存与恢复。  相似文献   

12.
现有的检查点技术不支持socket连接的恢复,也没有将进程恢复和数据恢复结合起来,因此不能支持含有数据库访问的应用程序.本文提出一种支持含有数据库访问的进程检查点技术.对于含有数据库访问的应用程序,在设置进程检查点之前,先设置数据库检查点,获取当前数据库的系统改变号SCN,然后生成进程检查点.当程序从进程检查点处恢复运...  相似文献   

13.
协同式检查点设置及卷回恢复技术是一种简单有效的容错手段,被广泛地运用于并行/分布式系统中。为进一步降低协同式检查点算法的开销,该文给出了一个基于可重建检查点的非阻塞协同式检查点算法。并行程序出错导致卷回恢复发生的概率远小于检查点设置概率,该算法利用这一特性,将检查点设置的部分开销转至卷回恢复阶段,降低了容错的开销,提高了系统的可扩展性。  相似文献   

14.
为降低设置检查点的开销,提出一种高效的异步存储非阻塞协调式检查点算法。该算法允许多个进程并发地在进程状态信息量较小时设置检查点,只在稳固存储器空闲时进行异步存储,并可同时进行检查点设置及进程执行。实验结果表明,该算法能降低设置检查点的开销,提高系统性能。  相似文献   

15.
Minix进程检查点机制的实现   总被引:1,自引:0,他引:1  
李毅  周明天 《计算机应用》2003,23(1):13-14,17
通过将进程用户栈和核心上下文数据存入数据段,可把与检查点有关的进程上下文简化为用户级寄存器上下文和用户数据段。检查点机制的状态检查操作就是将进程在该运行时刻的用户级寄存器上下文和用户数据段保存到检查点文件中,状态操作是状态检查的递操作,文章给出了Minix进程检查点机制的核外实现技术,并对该实现技术作了适当的优化。  相似文献   

16.
Windows NT进程检查点系统NTckpt的设计与实现   总被引:2,自引:0,他引:2  
设置进程检查点是保存和恢复进程运行状态的重要技术,是实现客错、卷回调试和进程迁移的重要手段。介绍了Windows NT操作系统的进程状态,以及基于该操作系统的进程检查点系统NTckpt的实现原理。NT ckpt实现了完全一致恢复用户地址空间,保汪了地址空间中动态分配数据区域的正确恢复。  相似文献   

17.
基于Linux的异步网络备份系统的设计与实现   总被引:4,自引:0,他引:4  
郭京  李涛  赵奎  刘莎  卢正添  蒲海 《计算机工程》2006,32(8):280-282
提出并实现了一种基于Linux的远程异步备份系统。该系统在没备驱动层脏视本地服务器的写操作,并将相关信息封装成记录发送到备份网关上缓存,然后由备份网关异步地将所缓存的记录发送到远程备份服务器上,最后在远程服务器上重建写操作并提交给相应的备份分区。该系统可适应多种网络状况,对用户透明,支持Linux下的所有文件系统与存储设备,实现了对本地服务器分区或磁盘的物理备份。  相似文献   

18.
减少检查点开销的一种方法   总被引:1,自引:0,他引:1  
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号