首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 103 毫秒
1.
实时任务的超时完成将会导致灾难性后果,因此实时系统必须具备严格的实时性及可靠性保障.考虑实时系统的容错需求,本文基于回卷恢复模型,对容错实时系统的可调度性分析进行研究.在基于任务最环响应时间的可调度性分析方法中,容错优先级配置是决定系统可调度性的关键.为了改进系统的可调度性,提出一种容错优先级可降低的配置策略,并推导出此策略下任务最坏响应时间的计算公式,以判断系统的可调度性.降低策略下低优先级任务可挪用高优先级任务的空闲时间来满足自身的截止时限要求.仿真实验表明,降低任务的容错优先级可以有效提升系统的容错能力.  相似文献   

2.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

3.
崔丽青  徐炜民 《计算机应用》2003,23(Z2):236-238
集群式计算机由于其良好的性能价格比已经成为高性能计算的主要发展方向,可靠性是这一类平台的主要问题.基于消息传递的MPI是广泛应用于集群系统的并行程序开发环境,实现MPI的容错对避免异常情况下应用程序从头执行造成的计算浪费具有重大意义.文中讨论了MPI标准中的容错以及回卷恢复这一容错技术,并以自强2000-SUHPCS为平台设计了针对MPICH并行消息传递库的容错系统.  相似文献   

4.
选举算法被广泛应用于分布式计算中,而且它已经被证明比合意问题更难.在分析了选举问题和合意问题的关系之后,提出了一种新的容错选举算法.该算法是稳定的、通信有效的,并且该算法可以容忍进程和链路的暂时性错误.所提出的算法不仅解决了选举问题,并且也提供了解决合意问题的一条新的途径.  相似文献   

5.
柳颖  陈道蓄  谢立  曹建农 《软件学报》2000,11(2):235-239
扩充的面向图结构的分布式程序设计模型(extended graph-oriented model,简称ExGOM)提供了一个支持动态配置的系统框架.系统的动态配置包括系统运行时的伸缩、运行时的升级以及出现故障后的重配置.故障后的重配置所涉及的问题之一是如何恢复系统原状态,该文着重就此问题进行了讨论,给出了基于故障敏感图的异步检查点回卷算法和故障恢复策略.该算法和策略考虑了在暂时性主机故障中单个主机上有多个故障进程的情况.与其他异步回卷及故障恢复算法相比,该算法将故障区域局部化,仅对故障敏感节点进行回卷,从而有效地降低了系统开销.  相似文献   

6.
分布式容错系统NDFS中系统恢复的实现   总被引:1,自引:0,他引:1  
通过NDFS的实现,确立了以通信点为断点保留的策略,并以通信关系表为基础论述了进行断点保留、一致性断点查找和系统恢复的有关思想和技术。  相似文献   

7.
工作站机群系统已成为分布式并行处理发展的主流方向之一,随着机群系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高,设计高可靠的群机系统,需要着重研究其系统容错技术,本文叙述了并行异构回卷恢复和检查点派生,实现透明的可移植容错和负载均衡能力,避免调整检查点就构成全局一致性状态,不仅使BSP应用程序自治容错能力,而且能够在机群(Clusters)间迁移,保持系统负载均衡,重点介绍了检查点设置,检查点派生、卷回、进程迁移技术。  相似文献   

8.
赵毅  曹宗雁  朱鹏  迟学斌 《软件学报》2013,24(S2):89-98
中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.  相似文献   

9.
本文概述了联机事务处理的特点及其对计算机系统的要求,详细地介绍了在此环境下,如何利用日志文件对数据库文件的故障恢复技术,包括硬件故障恢复技术和数据库文件恢复技术,分析了数据库保护措施及面临的挑战和问题,针对数据库文件在系统运行过程中出现的主要故障,提出了数据库文件恢复的策略。数据库文件的保护策略主要用用四种方法,即:并发控制,交易检查点,自动卷回恢复,向前卷回恢复。本文对建立后备副本,更新日志,建  相似文献   

10.
万玮  杨志义 《计算机工程与设计》2005,26(10):2811-2813,2816
为了提高分布式计算集群系统的可靠性,增强系统的容错能力,使系统在局部出错的情况下仍能稳定正常运行,建立了一个容错系统模型,该模型采用两级容错机制即节点级容错和任务级容错。此模型为分布式计算集群系统下的容错的进一步研究建立了基础。  相似文献   

11.
宋伟  杨学军 《软件学报》2011,22(9):2248-2262
针对事务存储系统机制下的容错问题,提出一种基于事务回退的事务存储系统的故障恢复方法.该方法利用事务存储系统自身的版本管理机制,避免了额外的检查点数据保存开销,从而实现了事务存储系统高效的故障恢复.通过对容错事务存储系统的隔离性证明了该方法的正确性.最后,使用包括4个SPLASH-2典型用例在内的5个测试程序对该方法进行了性能测试.实验结果表明,与经典的Checkpointing机制相比,该方法在避免了额外的检查点数据保存开销的同时,还具有较低的故障恢复开销.  相似文献   

12.
A common approach to fault-tolerant software DSM is to take checkpoints with message logging. Our remote logging has low overhead because each node saves the coherence-related data into the memory of a remote node through a high-speed system area network. For more lightweight fault-tolerant DSM, in this paper, we mainly focused on eliminating shared memory checkpointing during failure-free execution. Each node independently takes the checkpoints of execution states and non-shared data only. When a node fails, it regenerates its pages from the remote copies in live nodes. In order to efficiently reconstruct pages, we also introduced a XOR-diffing technique. The diff logs, which have been created by XOR operations during failure-free execution, can be applicable to any version of remote copies either backward or forward for recovery. Our scheme reduces the checkpointing overhead and also alleviates the imbalance in execution times among nodes due to independent checkpointing. This research is supported by KISTEP under the National Research Laboratory program.  相似文献   

13.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术  相似文献   

14.
分布式系统故障卷回恢复技术研究与实践   总被引:1,自引:0,他引:1       下载免费PDF全文
对时间要求苛刻的系统对可靠性的要求愈来愈高,尤其是在一些至关重要的领域如国防、航天技术等。本文介绍了分布式系统故障卷回恢复的关键技术。  相似文献   

15.
Group communication services (GCSs) are becoming increasingly important as a wide field of promising applications has emerged to serve millions of users distributed across the world.However,it is challenging to make the service fault tolerance and scalable to fulfill the voluminous demand of users in a distributed network (DN).While many reliable group communication protocols have been dedicated to addressing such a challenge so as to accommodate the changes in the network,they are often costly or require complicated strategies to handle the service interruptions caused by node departures or link failures,which hinders the service practicability.In this paper,we present two schemes to address the challenges.The first one is a location-aware replication scheme called NS,which makes replicas in a dispersed fashion that enables the services on nodes to gain immunity of failures with different patterns (e.g.,network partition and single point failure) while keeping replication overhead low.The second one is a novel failure recovery scheme that exploits the independence between service recovery and structure recovery in time domain to achieve quick failure recovery.Our simulation results indicate that the two proposed schemes outperform the existing schemes and simple alternative schemes in service success rate,recovery latency,and communication cost.  相似文献   

16.
本文提出了一种具有容错功能的实时分布式计算机系统的体系结构,同时对实时分布式计算机系统中的容错技术进行了研究,特别对实时分布式计算机系统中的节点机容错技术及实时性的实现方面做了较深入的讨论,并提出了实现方案。  相似文献   

17.
Recent technology advances have made multimedia on-demand services feasible. One of the challenges is to provide fault-tolerant capability at system level for a practical video-on-demand system. The main concern on providing fault recovery is to minimize the consumption of system resources on the surviving servers in the event of server failure. In order to reduce the overhead on recovery, we present three schemes for recovering faulty playbacks through channel merging and sharing techniques on the surviving servers. Furthermore, to evenly distribute the recovery load among the surviving servers, we propose a balanced dispatch policy that ensures load balancing in both the normal server conditions and the presence of a server failure.  相似文献   

18.
一种基于检查点的卷回恢复与进程迁移系统*   总被引:12,自引:2,他引:12  
ChaRM是一种并行程序后向故障恢复与进程迁移系统.它不仅实现了对工作站机群系统瞬时故障的恢复,而且通过检查点设置时的Mirror存储技术和进程迁移技术,实现了对机群系统结点永久故障的恢复,并支持系统软硬件的在线维护、处理机资源的排他/限时使用和动态负载平衡等功能.文章主要介绍ChaRM系统的检查点设置与回卷恢复、进程迁移等实现技术,并给出了部分性能评测结果.  相似文献   

19.
在分析DRP分布式环形网络冗余协议故障诊断和恢复机理的基础上,建立DRP故障恢复时间模型,将故障恢复的时间分为故障定位等待时间、故障报警时间和故障处理时间,分别针对交换设备管理模块故障扣通信链路故障,以及DRP方法对不同故障的探测方式,分析影响不同故障恢复时间的各种因素,并根据算法得出制约故障恢复时间提高的主要因素,并通过实验验证各种不同故障在EPA现场网络中故障恢复时间.  相似文献   

20.
张程博  李影  贾统 《软件学报》2021,32(7):2078-2102
随着图数据规模的日益庞大和图计算作业的日益复杂,图计算的分布化成为必然趋势.然而图计算作业在运行过程中面临着分布式图计算系统内外各种来源的非确定性所带来的严峻的可靠性问题.首先分析了分布式图计算框架中不确定性因素和不同类型图计算作业的鲁棒性,并提出了基于成本、效率和质量3个维度的面向分布式图计算作业的容错技术评估框架,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号