首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
一种改进的同步检查点设置算法   总被引:1,自引:0,他引:1  
检查点设置与卷回恢复是集群系统中容错计算的重要手段.同步检查点方法在集群系统中得到了广泛应用.为了提高集群计算系统的工作效率,降低系统的容错开销,根据基于消息驱赶的同步检查点设置算法的性质和在实际应用中并行应用程序的通信特征,通过减小协同过程中的阻塞时间,降低系统中控制消息的数量,对基于消息驱赶的Syncand-Stop算法进行优化.改进的算法有效降低检查点设置的时间和空间开销,减小在系统应用中检查点设置的代价,进一步提高系统可扩展性和应用可靠性.  相似文献   

2.
检查点技术是目前普遍使用的一种系统容错方法,能够有效地提高系统运行效率.在传统检查点技术的基础上提出了面向节点瞬时故障的动态检查点容错技术,通过对节点及其运行进程的实时监控数据的分析,给出检查点的引入、保存、恢复和取消的时机.由于检查点技术在实施过程中会影响部分系统运行效率,该技术主要面向可能被瞬时故障影响且运行长时进程的节点.  相似文献   

3.
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性.  相似文献   

4.
基于Lustre文件系统的MPI检查点系统实现技术与性能测试   总被引:1,自引:0,他引:1  
基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性.  相似文献   

5.
针对嵌入式Linux系统的特点,通过设置检查点(checkpoint)实现ARM平台进程级容错。在检查点工作时,通过/proc文件系统与内核进行交互,实时地获取与进程有关的PID、CPU状态以及内存信息,并保存在存储介质中。当进程出现故障后,将上述与进程有关的状态信息进行恢复,从而实现进程级容错。实验表明,该进程级容错系统有较好的容错能力,极大地缩短了进程恢复的时间。  相似文献   

6.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

7.
检查点是并行系统中实现容错的重要手段,同步检查点方法已广泛应用在工作站机群系统中。PVM所提供的消息传递机制支持高效的异构网络计算,但不支持客错功能。为了降低同步检查点设置的时间开销,提出了一种基于PVM的准同步检查点设置方法,它吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率,该方法在PVM环境下得以实现,实验结果表明所提出的方法具有较好的客错性能。  相似文献   

8.
用户指导的多层混合检查点技术及性能优化   总被引:2,自引:0,他引:2  
检查点机制是一种典型有效的软件容错技术。在对现有检查点实现技术综合研究的基础上,设计了一个用户指导的多层混合检查点模型uHybcr,并在IA64 Linux系统中予以实现。最后,通过对比测试对引入用户指导机制所带来的性能优化进行了验证。  相似文献   

9.
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。  相似文献   

10.
张琳  杨静 《计算机应用》2004,24(7):16-17,21
检查点机制作为一种软件容错机制,可以与新出现的广域分布式系统网格相结合,更好地满足网格系统的容错要求。文中详细分析了检查点回卷恢复协议的关键点,并对数据网格中GridCPR API进行了解析,提出一些改进,这样就更有利于网格系统的故障检测和容错服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号