共查询到19条相似文献,搜索用时 46 毫秒
1.
实时双机系统中检查点设置周期的选择 总被引:2,自引:0,他引:2
为了保证长运行时间软件的实时性要求,本文针对双机冗余系统,采用检查点设置与卷回恢复的方法提出了一种系统模型,同时为使任务的完成时间最短而给出了如何确定检查点设置周期的方法。文章最后进行了数学分析并给出了模拟结果比较。 相似文献
2.
针对嵌入式Linux系统的特点,通过设置检查点(checkpoint)实现ARM平台进程级容错。在检查点工作时,通过/proc文件系统与内核进行交互,实时地获取与进程有关的PID、CPU状态以及内存信息,并保存在存储介质中。当进程出现故障后,将上述与进程有关的状态信息进行恢复,从而实现进程级容错。实验表明,该进程级容错系统有较好的容错能力,极大地缩短了进程恢复的时间。 相似文献
3.
针对大规模高性能计算(HPC)系统中检查点效率提升问题,提出一种面向分层检查点近似最优周期计算模型。首先,通过分析一个HPC系统中应用程序的执行过程,将检查点周期优化抽象为一个非线性的检查点成本模型;其次,通过分析可能故障位置推导出分层检查点成本公式,并引入两个减速因子和一个加速因子来模拟消息日志对分层检查点造成的影响。仿真实验结果表明,所提模型与理论近似最优周期检查点成本平均误差在5%以下,相对传统检查点周期优化模型的平均误差降低了20%,能够有效提高检查点的效率,提升HPC系统可用性。 相似文献
4.
基于PVM的协调检查点设置关键技术 总被引:1,自引:0,他引:1
本文论述了基于PVM的并行程序运行回卷恢复系统设计和实现过程中的退出再加入PVM机制、任务号隐式映射机制、任务结束前同步机制、防止PVM库重入机制,信号与消息协同触发机制、应用任务初始化机制以及作为前述各机制实现基础的函数包裹与换名机制等关键技术。这些技术已经成功地应用于我们自主开发的ChaRM系统中,证明了技术的正确性和有效性。 相似文献
5.
6.
Unix进程检查点设置关键技术 总被引:4,自引:0,他引:4
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。 相似文献
7.
检查点技术是保障计算机系统可靠性的一种常用方法.通常假定系统失效的发生服从泊松分布,因此检查点是等间隔设置的.但近几年公布的现场数据表明以上假定不合实际.因此,首先利用现场失效数据对固定检查点间距方法的适应性进行分析,并提出两种检查点动态设置方法,它们根据系统前个阶段的失效信息动态地设置下一个检查点.模拟实验结果表明,所提出的方法在复杂失效分布下所获得的效果达到或者优于最优固定检查点的水平. 相似文献
8.
检查点技术是一种回溯和恢复的技术,在并行应用环境中,作用尤为突出。它定期保存程序的运行状态,以便需要时能及时从中恢复。本文系统介绍了检查点技术的基本概念和实现细节,详细阐述了MPP机检查点系统的设计思想,探讨了其中的主要问题-检查点的状态一致性以及检查点的性能优化措施。本文的结论是:我们能够在MP系统中实现高效的检查点技术,以此来提高此类系统的可用性。 相似文献
9.
检查点机制在现代并行分布式计算中有着重要的应用。本文介绍了一种基于Linux的检查点系统的设计和实现方法,它对系统容错、进程迁移和动态负载平衡的研究都具有重要的意义。 相似文献
10.
桑莉莉 《计算机应用与软件》2010,27(3):139-141
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。 相似文献
11.
12.
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。 相似文献
13.
现有的检查点技术不支持socket连接的恢复,也没有将进程恢复和数据恢复结合起来,因此不能支持含有数据库访问的应用程序.本文提出一种支持含有数据库访问的进程检查点技术.对于含有数据库访问的应用程序,在设置进程检查点之前,先设置数据库检查点,获取当前数据库的系统改变号SCN,然后生成进程检查点.当程序从进程检查点处恢复运... 相似文献
14.
15.
支持分布式合作实时事务处理的协同检验点方法 总被引:1,自引:0,他引:1
在实时事务执行时,事务故障或数据竞争会导致事务重启,为减少事务重启损失的工作量,可以采用检验点技术保证事务的时间正确性.在一类分布式实时数据库应用中,不同结点的事务通过消息交换形成合作关系,为保证合作事务间的全局一致性,当某一事务记检验点时,相关事务也要记检验点.传统协同检验点方法没有考虑应用的定时约束,不能很好地支持分布式合作实时事务处理.该文提出了一种基于图论的协同检验点方法,利用在每个计算结点上为每个合作事务集维护的局部有向图,使用一个基于图论的计算过程标识出应记检验点的事务,该方法既具有最小协同检验点特性,又使全局检验点的时延最小.实验表明该算法减少了全局检验点时延,有利于实时事务截止期的满足. 相似文献
16.
基于容错技术的处理器设计 总被引:1,自引:0,他引:1
如何提升处理器本身的容错性能,使其能够更好地应用于各种复杂多变的环境,已经成为当前研究的热点;对于这一问题,可以将故障屏蔽技术(三模块冗余,校正器)和故障恢复技术(多数表决恢复,检查点)综合应用到处理器的容错设计中;以VHDL代码实现的8051处理器为研究对象,综合采用上述方法设计容错处理器,并在仿真环境下采用故障注入的方法对其容错性能进行测试和验证;研究表明采用这些技术可以构造具有良好可信性和稳定性的容错处理器。 相似文献
17.
现有的协同检验点方法在移动环境中会带来较大的检验点过程延时 ,不能很好地支持实时事务处理 .提出了一种新的协同并行检验点方法 ,在正常的消息传输过程中 ,通过一点额外的带宽传送事务间检验点依赖关系 ;在某一事务记检验点时 ,尽可能地同时通知相关的事务记检验点 .实验表明 ,该算法对网络带宽没有明显的增加 ,而能大大降低事务记检验点的延时 ,使系统中超截止期的事务比例大大降低 相似文献
18.
James S. Plank 《Software》1997,27(9):995-1012
It is well-known that Reed-Solomon codes may be used to provide error correction for multiple failures in RAID-like systems. The coding technique itself, however, is not as well-known. To the coding theorist, this technique is a straightforward extension to a basic coding paradigm and needs no special mention. However, to the systems programmer with no training in coding theory, the technique may be a mystery. Currently, there are no references that describe how to perform this coding that do not assume that the reader is already well-versed in algebra and coding theory. This paper is intended for the systems programmer. It presents a complete specification of the coding algorithm plus details on how it may be implemented. This specification assumes no prior knowledge of algebra or coding theory. The goal of this paper is for a systems programmer to be able to implement Reed-Solomon coding for reliability in RAID-like systems without needing to consult any external references. © 1997 John Wiley & Sons, Ltd. 相似文献
19.
Seong Woo Kwak 《International journal of systems science》2013,44(4):595-603
This article considers the checkpoint placement problem for real-time systems. In our environment, multiple real-time tasks with arbitrary periods are scheduled in the system by the rate monotonic algorithm, and checkpoints are inserted at a constant interval in each task while the width of the interval is different with respect to the task. We derive an explicit formula of the probability that all the tasks are successfully completed with a given set of checkpoint intervals. Then we determine the optimal checkpoint intervals that maximise the probability of task completion. The probability computation includes the schedulability analysis with respect to the numbers of re-executed checkpoint intervals. Our method does not necessitate any algebraic condition on the periods of the scheduled tasks. 相似文献