共查询到20条相似文献,搜索用时 187 毫秒
1.
2.
Linux中检查点(Checkpoint)的核心支持——ckpt文件系统的设计 总被引:1,自引:0,他引:1
检查点(Checkpoint)是一种软件容错机制,它的目的是提高系统可靠性、减少运算损失,同时检查点机制也是并行系统中进程迁移和负载平衡的基础。在一些检查点系统中,由于对进程的状态检查/状态恢复只具有用户级支持,所以有许多局限性,比如不能完成进程外部状态检查。而在作者的设计与实现中由于具有了核心级的支持,所以能够充分地克服这些局限性。 相似文献
3.
4.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统Ⅴ共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统Ⅴ共享内存的保存与恢复。 相似文献
5.
6.
Unix进程检查点设置关键技术 总被引:4,自引:0,他引:4
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。 相似文献
7.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。 相似文献
8.
9.
针对空中交通管制系统(ATC)中对飞行数据集群处理的可靠性要求,提出了一种基于Linux的用户级进程检查点设置与恢复方案.对基于该Linux用户级的进程检查点的飞行数据集群处理的各个主要模块进行了介绍,在此基础上给出了系统设计框架.从进程的初始化数据段、堆、栈和打开的文件的保存与恢复,给出了该方案的详细实现方法.该进程检查点设置与恢复方案不但可以在主机崩溃重启后恢复进程在重启前的运行状态,更重要的是可以在分布式系统通过进程迁移将保存的进程检查点迁移到其它主机运行,从而有效的提高系统的可靠性,减少运算损失. 相似文献
10.
Solaris系统多线程检查点设置与卷回恢复 总被引:1,自引:0,他引:1
文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。 相似文献
11.
12.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 相似文献
13.
演化硬件的自修复特性能够有效解决电路系统的可修复性故障,但演化硬件存在电路演化速度慢、演化成功率不高的缺陷,如何在修复约束期限内完成电路演化成为关键难点。提出一种基于演化硬件的实时系统容错架构,通过建立故障树实时监测电路故障,利用故障补偿机制维持系统正常运行,并采用演化硬件技术修复电路故障,实现故障的在线实时修复。采用FPGA构建容错系统测试环境,通过随机故障注入对比验证不同演化算法的自修复能力,实验结果表明,在实时性约束下故障电路的修复率达到95%,有效提升了系统的稳定性和可靠性。 相似文献
14.
具有传输时延的网络控制系统故障估计与调节 总被引:2,自引:1,他引:2
In this paper, a method of fault estimation and fault tolerant control for networked control system (NCS) with transfer delay and process noise is presented. First, the networked control system is modeled as a multiple-input-multiple-output (MIMO) discrete-time system with transfer delays, process noise, and model uncertainties. Under this model and under some conditions, a fault estimation method is proposed to estimate the system faults. On the basis of the information on fault estimation and the sliding mode control theory, a fault tolerant controller is designed to recover the system performance. Finally, simulation results are used to verify the efficiency of the method. 相似文献
15.
In this paper,a method of fault estimation and fault tolerant control for networked control system (NCS) with transfer delay and process noise is presented.First,the networked control system is modeled as a multiple-input-multiple-output (MIMO) discrete-time system with transfer delays,process noise,and model uncertainties.Under this model and under some conditions, a fault estimation method is proposed to estimate the system faults.On the basis of the information on fault estimation and the sliding mode control theory,a fault tolerant controller is designed to recover the system performance. Finally, simulation results are used to verify the efficiency of the method. 相似文献
16.
一种新的优化的检查点间隔的求解模型 总被引:1,自引:0,他引:1
在具有容错功能的高性能计算环境中,由于加入检查点机制会给系统引入额外负载,检查点间隔的适当选定能使系统性能优化,Vaidya的贡献是用他的模型得出的检查点间隔的求解等式独立于检查点潜伏时间(L)及检查点恢复时间(R),本文介绍了一种新的基于时间分段的模型NSBM,引入了系统平均利用率这一容错领域更易理解的概念代替Vaidya模型中的平均负载率并推导出了也是独立于LR的求解等等式,实验结果表明NSBM的求解模型比Vaidya的求解模型更优化。 相似文献
17.
The problem of active fault‐tolerant tracking control with control input and system output constraints is studied for a class of discrete‐time systems subject to sensor faults. A time‐varying fault‐tolerant observer is first developed to estimate the real system state from the faulty sensor output and control input signals. Then by using the estimated state at each time step, a model predictive control (MPC)‐based fault‐tolerant tracking control scheme is presented to guarantee the desired tracking performance and the given input and output constraints on the faulty system. In comparison with many existing fault‐tolerant MPC methods, its main contribution is that the proposed state estimator is designed by the simple and online numerical computation to tolerate the possible sensor faults, so that the regular MPC algorithm without fault information can be adopted for the online calculation of fault‐tolerant control signal. The potential recursive infeasibility and computational complexity due to the faults are avoided in the scheme. Additionally, the closed‐loop stability of the post‐fault system is discussed. Simulative results of an electric throttle control system verify the effectiveness of the proposed method. 相似文献
18.
19.
通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-version programming)等容错技术为基础,充分考虑容错服务动态切换开销,分别针对支撑容错服务的底层云资源是否足够的场景,给出可用容错即服务提供方案的最优化求解方法.实验结果表明,所提方法降低了云应用系统支付的容错服务费用及支撑容错服务的底层云资源的开销,提高了容错服务提供商为多个云应用实施高效、可靠容错即服务的能力. 相似文献
20.
SW-MPIFT在气象领域的应用 总被引:1,自引:0,他引:1
随着集群系统在高性能计算领域的广泛应用,用户对其功能和可靠性的要求也越来越高。文章介绍了一种可以实现保留恢复功能的MPI容错系统,以及该系统在气象模型GRAPES上的应用情况。 相似文献