期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

殷源胡术宋万忠骆健喻德军《计算机工程与设计》2012,33(9):3588-3592

针对空中交通管制系统(ATC)中对飞行数据集群处理的可靠性要求,提出了一种基于Linux的用户级进程检查点设置与恢复方案.对基于该Linux用户级的进程检查点的飞行数据集群处理的各个主要模块进行了介绍,在此基础上给出了系统设计框架.从进程的初始化数据段、堆、栈和打开的文件的保存与恢复,给出了该方案的详细实现方法.该进程检查点设置与恢复方案不但可以在主机崩溃重启后恢复进程在重启前的运行状态,更重要的是可以在分布式系统通过进程迁移将保存的进程检查点迁移到其它主机运行,从而有效的提高系统的可靠性,减少运算损失. 相似文献

2.

Unix进程检查点设置关键技术 总被引：4，自引：0，他引：4

王春露汪东升《计算机工程与应用》2002,38(1):90-93,136

Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。相似文献

3.

利用检查点机制在PVM中实现进程迁移 总被引：5，自引：0，他引：5

下载免费PDF全文

鞠九滨魏晓辉郭雷《软件学报》1996,7(3):175-179

本文通过对ＰＶＭ进程通信机制进行修改及引入Ｃｏｎｄｏｒ的检查点机制，实现了对ＰＶＭ用户进程的迁移．相似文献

4.

一种基于行为特征的文件检查点优化策略

《软件》2017,(7):137-142

检查点机制是高性能计算平台的一项重要特性。它能够在程序运行的某一时刻保存程序的运行状态,并在系统故障后恢复程序状态继续执行。由于文件操作在应用程序中的普遍性,支持文件回卷对于检查点技术来说是十分必要的。文件数据备份可以使文件在回卷后恢复到正常状态,但是开销太大。本文提出了一种基于行为特征的文件检查点优化策略(BBFC),能够提供文件数据的正确恢复,有效保证了程序回卷恢复到上一个检查点时文件状态与进程其它状态保持一致。BBFC对文件行为特征进行分类,并根据这些行为特征采取相应的保存恢复策略,从而在很大概率上减少了检查点间隔需要保存的文件内容,降低了文件检查点的时间、空间开销。它对用户透明,简单易用。相似文献

5.

一种高效的协调式检查点算法

下载免费PDF全文

刘翠英高胜法王慧丽《计算机工程》2011,37(23):49-51

为降低设置检查点的开销,提出一种高效的异步存储非阻塞协调式检查点算法。该算法允许多个进程并发地在进程状态信息量较小时设置检查点,只在稳固存储器空闲时进行异步存储,并可同时进行检查点设置及进程执行。实验结果表明,该算法能降低设置检查点的开销,提高系统性能。相似文献

6.

支持文件迁移的Linux检查点机制的实现

下载免费PDF全文

杨晖陈闳中《计算机工程》2010,36(3):266-268

在BLCR系统的基础上实现一种支持进程打开文件迁移的检查点机制,给出该机制的总体框架、关键技术、进程打开文件保存恢复、状态保存和恢复的流程。实验结果表明,该机制支持多线程、信号、进程打开文件及管道等的保存与恢复,无需重编译内核,对用户具有良好的透明性。相似文献

7.

双机容错系统中最佳检查点间隔的分析 总被引：2，自引：0，他引：2

下载免费PDF全文

鄢喜爱杨金民田华《计算机工程》2007,33(5):283-285

设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响，所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统，采用检查点设置与回卷恢复的方法提出了一种系统模型，利用马尔科夫链得到了最佳检查点间隔的求解等式，通过实验证实了求解等式的正确性。相似文献

8.

Solaris系统多线程检查点设置与卷回恢复 总被引：1，自引：0，他引：1

张悠慧汪东升《计算机工程与应用》2000,36(8):45-47

文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。相似文献

9.

基于Lustre文件系统的MPI检查点系统实现技术与性能测试 总被引：1，自引：0，他引：1

谢旻卢宇彤周恩强曹宏嘉杨学军《计算机研究与发展》2007,44(10):1709-1716

基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点：1）协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2）采用Lustre文件系统简化检查点映像文件管理的复杂性;3）通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性. 相似文献

10.

基于检查点进程迁移机制的改进 总被引：3，自引：0，他引：3

李庆华罗犀劲《计算机仿真》2003,20(5):50-52

目前的大多数进程迁移机制都是基于检查点保存重起机制来实现的。该文在机群环境下，提出一种改进的不保存进程状态的进程迁移机制。先把进程的必要信息转移到目标机上，然后即开始执行新的进程，并在执行的过程当中，陆续转移进程其他的信息。实验表明改进的机制能较大地缩短进程迁移时间。相似文献

11.

超步透导的回卷恢复

丁俊童维勤《小型微型计算机系统》2002,23(6):731-735

工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术相似文献

12.

分布式计算系统回卷恢复容错的仿真设计

董奇 黄斌 颜耀 李韦韦 曾玮妮 张恒 《计算机与现代化》2017,(4):48

为了解决分布式计算系统回卷恢复容错的验证评估问题,设计一种分布式计算系统的回卷恢复容错算法的仿真机制,依据分布式计算系统回卷恢复容错的总体架构,将分布式计算系统中的节点任务过程使用离散事件模拟,在网络系统仿真工具的应用层增加支持多任务回卷恢复容错仿真的模块,并设计用于回卷恢复容错仿真的结构、功能模块和系统参数设定。结果表明本文提出的仿真机制能够实现分布式计算系统的回卷恢复容错算法的模拟验证,为不同容错算法间对比、改进与优化提供参照。  相似文献

13.

基于故障敏感图的回卷算法和故障恢复

柳颖陈道蓄谢立曹建农《软件学报》2000,11(2):235-239

扩充的面向图结构的分布式程序设计模型(extended graph-oriented model,简称ExGOM)提供了一个支持动态配置的系统框架.系统的动态配置包括系统运行时的伸缩、运行时的升级以及出现故障后的重配置.故障后的重配置所涉及的问题之一是如何恢复系统原状态,该文着重就此问题进行了讨论,给出了基于故障敏感图的异步检查点回卷算法和故障恢复策略.该算法和策略考虑了在暂时性主机故障中单个主机上有多个故障进程的情况.与其他异步回卷及故障恢复算法相比,该算法将故障区域局部化,仅对故障敏感节点进行回卷,从而有效地降低了系统开销. 相似文献

14.

回卷恢复模型下容错实时系统的可调度性分析

郭锐锋刘娴丁万夫李杰王鸿亮《小型微型计算机系统》2013,34(6)

实时任务的超时完成将会导致灾难性后果,因此实时系统必须具备严格的实时性及可靠性保障.考虑实时系统的容错需求,本文基于回卷恢复模型,对容错实时系统的可调度性分析进行研究.在基于任务最环响应时间的可调度性分析方法中,容错优先级配置是决定系统可调度性的关键.为了改进系统的可调度性,提出一种容错优先级可降低的配置策略,并推导出此策略下任务最坏响应时间的计算公式,以判断系统的可调度性.降低策略下低优先级任务可挪用高优先级任务的空闲时间来满足自身的截止时限要求.仿真实验表明,降低任务的容错优先级可以有效提升系统的容错能力. 相似文献

15.

分布式系统故障卷回恢复技术研究与实践 总被引：1，自引：0，他引：1

下载免费PDF全文

文梅李宏亮张春元范金鹏吴涛王志英《计算机工程与科学》2000,22(5):52-55

对时间要求苛刻的系统对可靠性的要求愈来愈高,尤其是在一些至关重要的领域如国防、航天技术等。本文介绍了分布式系统故障卷回恢复的关键技术。相似文献

16.

一种工作流运行时流程回退方法的研究与实现

张慧李建华许甸徐海军《计算机工程与科学》2008,30(5):88-91

为了解决在流程回退操作中产生的死锁和数据不一致问题,本文在全面分析各种回退场景的基础上给出了流程的形式化定义和确保回退正确性的规则集,提出了一个获取可回退目标活动列表的算法。最后,我们设计了一个有效支持工作流运行时回退的应用模型。该模型在开源工作流引擎Shark中得到了实现,并对流程可能出现的回退场景进行了验证。实验的结果和分析的结果一致。相似文献

17.

基于事务回退的事务存储系统的故障恢复

宋伟杨学军《软件学报》2011,22(9):2248-2262

针对事务存储系统机制下的容错问题,提出一种基于事务回退的事务存储系统的故障恢复方法.该方法利用事务存储系统自身的版本管理机制,避免了额外的检查点数据保存开销,从而实现了事务存储系统高效的故障恢复.通过对容错事务存储系统的隔离性证明了该方法的正确性.最后,使用包括4个SPLASH-2典型用例在内的5个测试程序对该方法进行了性能测试.实验结果表明,与经典的Checkpointing机制相比,该方法在避免了额外的检查点数据保存开销的同时,还具有较低的故障恢复开销. 相似文献

18.

基于并发性发掘的低开销回卷恢复实现方法

袁功彪杨金民白树仁《计算机工程》2013,(11):46-51

现有的回卷恢复容错技术存在同步约束和阻塞问题,其时间开销随系统节点规模的增大而剧增。为此,提出一种基于并发性发掘的低开销回卷恢复实现方法。利用消息传递附带跟踪消息依赖的策略解除消息日志中的同步约束,解析进程负载以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,以降低故障恢复开销。3个NASNPB2．3标准性能检测程序的实验结果表明,该方法可使检查点开销从0．63S、3．19S、1．21S分别降低到0．18S、O．67S、0．19S,日志开销率从13．4％、3．5％、18．3％分别降低到0．7％、0．1％、1．0％。相似文献

19.

Log-Based Rollback Recovery without Checkpoints of Shared Memory in Software DSM

Soyeon Park Seung Ryoul Maeng 《The Journal of supercomputing》2006,35(2):141-154

A common approach to fault-tolerant software DSM is to take checkpoints with message logging. Our remote logging has low overhead because each node saves the coherence-related data into the memory of a remote node through a high-speed system area network. For more lightweight fault-tolerant DSM, in this paper, we mainly focused on eliminating shared memory checkpointing during failure-free execution. Each node independently takes the checkpoints of execution states and non-shared data only. When a node fails, it regenerates its pages from the remote copies in live nodes. In order to efficiently reconstruct pages, we also introduced a XOR-diffing technique. The diff logs, which have been created by XOR operations during failure-free execution, can be applicable to any version of remote copies either backward or forward for recovery. Our scheme reduces the checkpointing overhead and also alleviates the imbalance in execution times among nodes due to independent checkpointing. This research is supported by KISTEP under the National Research Laboratory program. 相似文献