首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
分布式系统中的检查点算法   总被引:12,自引:0,他引:12  
检查点能够保存和恢复程序的运行状态.它在进程迁移、容错、卷回调试等领域都有重要的应用.本文对分布式系统中的检查点算法进行了详细的分类评述.检查点算法可分为单进程和分布式程序检查点算法,分布式程序检查点算法又可分为异步检查点算法和一致检查点算法.同时本文系统介绍了改进检查点算法性能的典型方法.这些改进算法主要采用两个策略来减少算法的开销与延迟:一是减少检查点文件中需要存储的信息量,如增量算法等;二是提高检查点操作与目标程序运行的并行性,如主存算法等.最后,文章讨论了目前检查点算法的局限性和进一步的工作.  相似文献   

2.
基于虚拟文件操作的文件检查点设置   总被引:1,自引:0,他引:1  
刘少锋  汪东升  朱晶 《软件学报》2002,13(8):1528-1533
实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态的不一致的问题.该方法通过文件块式管理、检查点分布操作等技术,使得在空间开销、正常运行时间、恢复时间等性能指标上优于其他方法,并且具有对用户透明、可最大限度地保留已完成工作的特点.  相似文献   

3.
检查点是一种用于回溯和恢复的技术,执行程序的状态每隔一段时间被保存到磁盘文件中,用来进行错误时的恢复,近来一系列减少检查点文件写开销的技术得到发展,本文将介绍Libckpt,一个基于UNIX环境的可移植的检查点工具。Libckpt一方面可以对用户完全透明,一方面也支持直接向用户的检查点生成,这种直接面向用户的方式是Libckpt的一大改进。  相似文献   

4.
分布式系统检查点算法中程序卷回时文件系统的状态恢复   总被引:3,自引:0,他引:3  
检查点技术,也称为“回溯恢复”,是软件容错的重要手段,它主要用于保存和恢复程序的运行状态。在分布式计算和并行计算系统中有十分重要的作用。该文从减少检查点的开销角度,对分布式系统检查点算法中关于程序卷回时文件系统状态的恢复问题进行了分析讨论和进一步的研究。  相似文献   

5.
WindowsNT环境下的进程检查点设置与回卷恢复   总被引:6,自引:0,他引:6  
阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。  相似文献   

6.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

7.
检查点设置和卷回恢复是提高系统可靠性和实现容错计算的有效途径,其性能通常用开销率来评价,而检查点开销是影响开销率的主要因素。针对目前并行程序运行时存在较多通信阻塞时间的现状,该文在写时复制检查点缓存的基础上提出了一种进一步降低检查点开销的方法。通过控制状态保存线程的调度和选择合适的状态保存粒度,该方法能很好地利用通信阻塞时间隐藏状态保存线程运行时带来的开销,从而能进一步降低开销率。  相似文献   

8.
检查点技术是一种回溯和恢复的技术,在并行应用环境中,作用尤为突出。它定期保存程序的运行状态,以便需要时能及时从中恢复。本文系统介绍了检查点技术的基本概念和实现细节,详细阐述了MPP机检查点系统的设计思想,探讨了其中的主要问题-检查点的状态一致性以及检查点的性能优化措施。本文的结论是:我们能够在MP系统中实现高效的检查点技术,以此来提高此类系统的可用性。  相似文献   

9.
具有O(n)消息复杂度的协调检查点设置算法   总被引:3,自引:0,他引:3  
协调检查点设置及回卷恢复技术作为一种有效的容错手段,已广泛地运用在集群等并行/分布计算机系统中.为了进一步降低协调检查点设置的时间和空间开销,提出了一种基于消息计数的协调检查点设置算法.该算法无须对底层消息通道的FIFO特性进行假设,并使同步阶段引入的控制消息复杂度由通常的O(n2)降低到O(n),有效地提高了系统的效率和扩展性.  相似文献   

10.
减少检查点开销的一种方法   总被引:1,自引:0,他引:1  
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号