首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

2.
Linux中检查点(Checkpoint)的核心支持——ckpt文件系统的设计   总被引:1,自引:0,他引:1  
检查点(Checkpoint)是一种软件容错机制,它的目的是提高系统可靠性、减少运算损失,同时检查点机制也是并行系统中进程迁移和负载平衡的基础。在一些检查点系统中,由于对进程的状态检查/状态恢复只具有用户级支持,所以有许多局限性,比如不能完成进程外部状态检查。而在作者的设计与实现中由于具有了核心级的支持,所以能够充分地克服这些局限性。  相似文献   

3.
基于Linux内核的进程检查点系统设计与实现   总被引:1,自引:0,他引:1  
作为一种流行的软件容错机制,检查点与恢复技术的实现模式有两种:用户级和系统级.首先阐述了两者的区别,然后根据Linux可加栽内核模块机制提出了一种基于Linux内核的进程检查点与恢复实现方法.利用Linux内核线程实现了检查点与恢复内核模块,并基于此内核模块在用户层构造了一检查点函数库,为用户提供了相应接口.用户通过组合使用这些接口可以高效地实现具体检查点与恢复算法.  相似文献   

4.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统Ⅴ共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统Ⅴ共享内存的保存与恢复。  相似文献   

5.
基于虚拟文件操作的文件检查点设置   总被引:1,自引:0,他引:1  
刘少锋  汪东升  朱晶 《软件学报》2002,13(8):1528-1533
实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态的不一致的问题.该方法通过文件块式管理、检查点分布操作等技术,使得在空间开销、正常运行时间、恢复时间等性能指标上优于其他方法,并且具有对用户透明、可最大限度地保留已完成工作的特点.  相似文献   

6.
Unix进程检查点设置关键技术   总被引:4,自引:0,他引:4  
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。  相似文献   

7.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。  相似文献   

8.
王书斌  朱晓旭  吕强 《计算机工程》2006,32(20):103-105
为了有效利用网络带宽、降低网络流量,并在保持逻辑向量时钟的检查点全局一致基础上,使得系统在恢复复制进程时,做到网络流量小、等待时间短、用户费用少,容错系统将依据编辑文档的编辑距离、编辑相似度,以最小的代价为恢复进程提供最新检查点和最新文档,实现广域网环境下优化的实时协同编辑系统。提出流量控制的算法,并通过OPNET建模和实验测试,对整个系统容错时的流量进行了分析。  相似文献   

9.
针对空中交通管制系统(ATC)中对飞行数据集群处理的可靠性要求,提出了一种基于Linux的用户级进程检查点设置与恢复方案.对基于该Linux用户级的进程检查点的飞行数据集群处理的各个主要模块进行了介绍,在此基础上给出了系统设计框架.从进程的初始化数据段、堆、栈和打开的文件的保存与恢复,给出了该方案的详细实现方法.该进程检查点设置与恢复方案不但可以在主机崩溃重启后恢复进程在重启前的运行状态,更重要的是可以在分布式系统通过进程迁移将保存的进程检查点迁移到其它主机运行,从而有效的提高系统的可靠性,减少运算损失.  相似文献   

10.
Solaris系统多线程检查点设置与卷回恢复   总被引:1,自引:0,他引:1  
文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。  相似文献   

11.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

12.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

13.
演化硬件的自修复特性能够有效解决电路系统的可修复性故障,但演化硬件存在电路演化速度慢、演化成功率不高的缺陷,如何在修复约束期限内完成电路演化成为关键难点。提出一种基于演化硬件的实时系统容错架构,通过建立故障树实时监测电路故障,利用故障补偿机制维持系统正常运行,并采用演化硬件技术修复电路故障,实现故障的在线实时修复。采用FPGA构建容错系统测试环境,通过随机故障注入对比验证不同演化算法的自修复能力,实验结果表明,在实时性约束下故障电路的修复率达到95%,有效提升了系统的稳定性和可靠性。  相似文献   

14.
具有传输时延的网络控制系统故障估计与调节   总被引:2,自引:1,他引:2  
冒泽慧  姜斌 《自动化学报》2007,33(7):738-743
In this paper, a method of fault estimation and fault tolerant control for networked control system (NCS) with transfer delay and process noise is presented. First, the networked control system is modeled as a multiple-input-multiple-output (MIMO) discrete-time system with transfer delays, process noise, and model uncertainties. Under this model and under some conditions, a fault estimation method is proposed to estimate the system faults. On the basis of the information on fault estimation and the sliding mode control theory, a fault tolerant controller is designed to recover the system performance. Finally, simulation results are used to verify the efficiency of the method.  相似文献   

15.
In this paper,a method of fault estimation and fault tolerant control for networked control system (NCS) with transfer delay and process noise is presented.First,the networked control system is modeled as a multiple-input-multiple-output (MIMO) discrete-time system with transfer delays,process noise,and model uncertainties.Under this model and under some conditions, a fault estimation method is proposed to estimate the system faults.On the basis of the information on fault estimation and the sliding mode control theory,a fault tolerant controller is designed to recover the system performance. Finally, simulation results are used to verify the efficiency of the method.  相似文献   

16.
一种新的优化的检查点间隔的求解模型   总被引:1,自引:0,他引:1  
在具有容错功能的高性能计算环境中,由于加入检查点机制会给系统引入额外负载,检查点间隔的适当选定能使系统性能优化,Vaidya的贡献是用他的模型得出的检查点间隔的求解等式独立于检查点潜伏时间(L)及检查点恢复时间(R),本文介绍了一种新的基于时间分段的模型NSBM,引入了系统平均利用率这一容错领域更易理解的概念代替Vaidya模型中的平均负载率并推导出了也是独立于LR的求解等等式,实验结果表明NSBM的求解模型比Vaidya的求解模型更优化。  相似文献   

17.
The problem of active fault‐tolerant tracking control with control input and system output constraints is studied for a class of discrete‐time systems subject to sensor faults. A time‐varying fault‐tolerant observer is first developed to estimate the real system state from the faulty sensor output and control input signals. Then by using the estimated state at each time step, a model predictive control (MPC)‐based fault‐tolerant tracking control scheme is presented to guarantee the desired tracking performance and the given input and output constraints on the faulty system. In comparison with many existing fault‐tolerant MPC methods, its main contribution is that the proposed state estimator is designed by the simple and online numerical computation to tolerate the possible sensor faults, so that the regular MPC algorithm without fault information can be adopted for the online calculation of fault‐tolerant control signal. The potential recursive infeasibility and computational complexity due to the faults are avoided in the scheme. Additionally, the closed‐loop stability of the post‐fault system is discussed. Simulative results of an electric throttle control system verify the effectiveness of the proposed method.  相似文献   

18.
王旭  沈艳霞  吴定会 《测控技术》2018,37(10):148-152
针对一类满足Lipschitz条件的仿射非线性系统,提出一种执行器故障重构与容错控制方法。通过非奇异变化矩阵对系统进行降阶,设计出滑模故障重构观测器,优化滑模策略,使滑模故障重构观测器渐进估计系统的状态,并给出稳定性分析。运用等价输出控制方法直接获取故障信息,实现执行器故障的检测与重构。设计出主动容错控制器,通过补偿控制,完成执行器故障的容错控制。最后通过数值仿真验证了方法的可行性与有效性。  相似文献   

19.
杨娜  刘靖 《软件学报》2019,30(4):1191-1202
通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-version programming)等容错技术为基础,充分考虑容错服务动态切换开销,分别针对支撑容错服务的底层云资源是否足够的场景,给出可用容错即服务提供方案的最优化求解方法.实验结果表明,所提方法降低了云应用系统支付的容错服务费用及支撑容错服务的底层云资源的开销,提高了容错服务提供商为多个云应用实施高效、可靠容错即服务的能力.  相似文献   

20.
SW-MPIFT在气象领域的应用   总被引:1,自引:0,他引:1  
随着集群系统在高性能计算领域的广泛应用,用户对其功能和可靠性的要求也越来越高。文章介绍了一种可以实现保留恢复功能的MPI容错系统,以及该系统在气象模型GRAPES上的应用情况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号