首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
计算机系统容错技术研究   总被引:2,自引:1,他引:1  
针对计算机系统中软、硬件可靠性问题的不同特点,讨论容错技术的最新发展现状,分析计算机系统中的各种容错方法,包括传统的冗余设计、错误回卷恢复机制以及当前研究较多的一般化容错设计方法等,研究目前已有的一些容错方法在反应延迟、容错成本、精确量化、异构同步、可靠性建模等方面存在的缺陷以及待解决关键问题,并对如何进一步更好地完善和使用这些容错方法进行总结。  相似文献   

2.
崔丽青  徐炜民 《计算机应用》2003,23(Z2):236-238
集群式计算机由于其良好的性能价格比已经成为高性能计算的主要发展方向,可靠性是这一类平台的主要问题.基于消息传递的MPI是广泛应用于集群系统的并行程序开发环境,实现MPI的容错对避免异常情况下应用程序从头执行造成的计算浪费具有重大意义.文中讨论了MPI标准中的容错以及回卷恢复这一容错技术,并以自强2000-SUHPCS为平台设计了针对MPICH并行消息传递库的容错系统.  相似文献   

3.
万玮  杨志义 《计算机工程与设计》2005,26(10):2811-2813,2816
为了提高分布式计算集群系统的可靠性,增强系统的容错能力,使系统在局部出错的情况下仍能稳定正常运行,建立了一个容错系统模型,该模型采用两级容错机制即节点级容错和任务级容错。此模型为分布式计算集群系统下的容错的进一步研究建立了基础。  相似文献   

4.
CORBA是一种当前流行的基于对象技术的中间件平台。它提供了一种松散的、异步的通信机制,解决分布式计算环境中不同硬件设备和软件系统的互联,增强了网络间软件的互操作性,解决传统分布式计算模式中的不足等问题。目前的CORBA产品大多缺乏容错机制,针对产品已有的缺陷和不足,给合了中间件技术的优点,运用对象复制技术和热备份技术实现容错服务。文章设计并实现了一种应用级容错CORBA系统,提高了系统的可靠性,满足了分布式系统对容错的要求。  相似文献   

5.
李静  刘冬实 《计算机应用》2018,38(9):2631-2636
除了传统的冗余机制,主动容错技术也被用来提高存储系统的可靠性。然而,当前对主动容错云存储系统可靠性的研究工作很少,而且都局限于硬盘故障服从指数分布的假设前提。针对主动容错磁盘冗余阵列RAID-5和RAID-6云存储系统提出两个可靠性状态转移模型,并基于转移模型设计了蒙特卡洛仿真算法,评价系统在一定运行周期内发生数据丢失事件的期望个数。该算法采用韦布分布函数模拟随时间变化(降低、恒定不变、或升高)的硬盘故障率,准确评价了主动容错机制、硬盘整体故障、故障修复、潜在块故障以及磁盘清洗过程对系统可靠性的影响。所提方法可以帮助系统设计者评估不同容错机制和系统参数对云存储系统可靠性的影响,有助于创建高可靠存储系统。  相似文献   

6.
提出了一个在VoD系统中具有高可用性的动态容错算法。针对分布式应用的特点,能对控制节点实现服务器切换的容错,数据服务节点负载均衡分配和故障节点提供服务的恢复。同时按照文章一致性保证机制可以实现媒体服务故障恢复对客户端的透明。通过对系统可用性分析和仿真试验表明,该算法可以有救地提高系统的可用性。  相似文献   

7.
一类自选网络的容错直径与容错路由算法   总被引:1,自引:1,他引:0  
作为加利图的一种,自选图AGn相对于其它网络结构,在并行计算及分布式计算领域有着更好的特性,因而受到广泛的重视.ANn是由翼有虎提出的基于AGn的一类新的网络结构.这个新的网络结构在直径、容错度、容错直径和汉密尔顿连通性上都优于网络AGn.虽然该网络结构已经有了较好的非容错路由算法,但是依然没有一种针对这个结构的容错路由算法以完善其实际应用.文中通过研究ANn的性质,得出了容错直径,然后基于该容错直径,设计并实现了ANn容错路由算法,最后验证了该算法的正确性.  相似文献   

8.
实时任务的超时完成将会导致灾难性后果,因此实时系统必须具备严格的实时性及可靠性保障.考虑实时系统的容错需求,本文基于回卷恢复模型,对容错实时系统的可调度性分析进行研究.在基于任务最环响应时间的可调度性分析方法中,容错优先级配置是决定系统可调度性的关键.为了改进系统的可调度性,提出一种容错优先级可降低的配置策略,并推导出此策略下任务最坏响应时间的计算公式,以判断系统的可调度性.降低策略下低优先级任务可挪用高优先级任务的空闲时间来满足自身的截止时限要求.仿真实验表明,降低任务的容错优先级可以有效提升系统的容错能力.  相似文献   

9.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

10.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术  相似文献   

11.
一种基于移动计算环境的因果日志卷回恢复算法   总被引:2,自引:0,他引:2  
由于移动节点的不可靠和无线网络连接的脆弱性,研究移动计算系统容错机制具有重要意义.对可以跨区移动、随时可以与网络断开的自治性很强的移动节点来说,异步的卷回恢复是一种重要的容错手段.现有的移动计算环境下的卷回恢复算法都无法完全实现一致的异步卷回恢复.基于因果消息日志,提出一种新的移动计算环境的卷回恢复算法:通过先行图来记录节点间的消息依赖关系,将异步检查点、基于发送方的暂存消息日志和先行图全部在移动支持站上存储和处理,为移动节点提供一种透明的容错服务,完全消除依赖关系在移动节点之间造成的影响.用形式化的方法证明了系统的一致性.仿真结果表明,在卷回开销达到最低的同时,也显著降低了无错运行时的通信和存储开销.  相似文献   

12.
张琳  杨静 《计算机应用》2004,24(7):16-17,21
检查点机制作为一种软件容错机制,可以与新出现的广域分布式系统网格相结合,更好地满足网格系统的容错要求。文中详细分析了检查点回卷恢复协议的关键点,并对数据网格中GridCPR API进行了解析,提出一些改进,这样就更有利于网格系统的故障检测和容错服务。  相似文献   

13.
在分布式计算环境中经常使用检查点/恢复策略来进行容错。文中主要研究在信道不可靠的环境中通过协调使相互通信的各进程所做的检查点保持全局一致性的方法。通过分析中途消息与信道可靠性之闯的关系以及已有检查点协议对于中途消息处理方法,提出了一种应用于信道不可靠环境下的协调式检查点方法,其消息复杂度为O(N)且不引入其他的计算负担,只通过一次同步即可达到全局一致性状态,相比于以往的协调式检查点协议大大减小了时间开销,提高了在不可靠信道环境中做全局一致检查点的效率。  相似文献   

14.
In the rollback recovery of large‐scale long‐running applications in a distributed environment, pessimistic message logging protocols enable failed processes to recover independently, though at the expense of logging every message synchronously during fault‐free execution. In contrast, coordinated checkpointing protocols avoid message logging, but they are poor in scalability with a sharply increased coordinating overhead as the system grows. With the aim of achieving efficient rollback recovery by trading off logging overhead and coordinating overhead, this paper suggests a partitioning of the system into clusters, and then presents a scheme to implement the conversion between these overheads. Using the proposed conversion, coordination can be introduced to reduce the unbearable logging overhead found in some systems, whereas proper logging can be employed to alleviate the unacceptable coordinating overhead in others. Furthermore, heuristics are introduced to address the issue of how to partition the system into clusters in order to speed up the recovery process and to improve recovery efficiency. Performance evaluation results indicate that our scheme can lower the overall system overhead effectively. Copyright © 2008 John Wiley & Sons, Ltd.  相似文献   

15.
Checkpoint and rollback recovery is a well‐known technique for providing fault tolerance to long‐running distributed applications. Performance of a checkpoint and recovery protocol depends on the characteristics of the application and the system on which it runs. However, given an application and system environment, there is no easy way to identify which checkpoint and recovery protocol will be most suitable for it. Conventional approaches require implementing the application with all the protocols under consideration, running them on the desired system, and comparing their performances. This process can be very tedious and time consuming. This paper first presents the design and implementation of a simulation environment, distributed process simulation or dPSIM, which enables easy implementation and evaluation of checkpoint and recovery protocols. The tool enables the protocols to be simulated under a wide variety of application, system, and network characteristics. The paper then presents performance evaluation of five checkpoint and recovery protocols. These protocols are implemented and executed in dPSIM under different simulated application, system, and network characteristics. Copyright © 2003 John Wiley & Sons, Ltd.  相似文献   

16.
An approach to fault-tolerant execution of real-time application tasks in hypercubes is proposed. The approach is based on the distributed recovery block (DRB) scheme and does not require special hardware mechanisms in support of fault tolerance. Each task is assigned to a pair of processors forming a DRB computing station for execution in a dual-redundant and self-checking mode. Assignment of all tasks in an application in such a form is called the full DRB mapping. The DRB scheme was developed as an approach to uniform treatment of hardware and software faults with the effect of fast forward recovery. However, if the system developer is concerned with hardware fault possibilities only, then forming DRB stations becomes a mechanical process not burdening the application software designer in any way. A procedure for converting an efficient nonredundant task-to-processor mapping into an efficient full DRB mapping is presented  相似文献   

17.
基于虚拟文件操作的文件检查点设置   总被引:1,自引:0,他引:1  
刘少锋  汪东升  朱晶 《软件学报》2002,13(8):1528-1533
实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态的不一致的问题.该方法通过文件块式管理、检查点分布操作等技术,使得在空间开销、正常运行时间、恢复时间等性能指标上优于其他方法,并且具有对用户透明、可最大限度地保留已完成工作的特点.  相似文献   

18.
区块链分片方案中的跨分片交易由多个分片协调处理。在采用实用拜占庭容错(practical Byzantine fault tolerance,PBFT)类共识算法的分片方案中,存在因分片后拜占庭节点在单个分片聚集,导致分片失效无法验证交易的问题。因此,为保证分片间数据的一致性,需要对部分处理的跨分片交易进行回滚操作,这影响了系统的总体性能。针对以上问题,提出了一种多轮共识的验证方案,可以在降低回滚概率的基础上,支持更大分片规模,提升系统的每秒交易数(transaction per second,TPS)。简述了现有分片项目解决方案的优缺点,对跨分片交易的概率和回滚概率进行了分析,提出多轮共识的验证方案,分析了多轮方案对跨片交易回滚概率的影响,得出合理的多轮轮数上限值。通过与现有方案的对比实验表明,多轮验证方案可以有效提升交易验证率,降低跨片交易回滚的概率,提升系统总体的TPS。  相似文献   

19.
耿技  陈非  聂鹏  陈伟  秦志光 《计算机应用》2012,32(10):2748-2751
基于检查点的协同式回滚恢复机制是一种针对分布式系统生存性保障的有效机制,现有分布式系统中基于检查点的回滚恢复机制以分布式信道可靠作为假设前提,而实际应用场景中,该假设并不总是成立。针对分布式系统实际的应用环境,提出了适用于信道不可靠的分布式计算环境的协同式系统生存性保障模型。该模型在保留检查点回滚恢复机制优点的基础上,通过建立冗余通信链路和进程迁移来保障不可靠通信信道环境下分布式系统的生存性。  相似文献   

20.
A rollback recovery scheme for distributed systems is proposed. The state-save synchronization among processes is implemented by bounding clock drifts such that no state-save synchronization messages are required. Since the clocks are only loosely synchronized, the synchronization overhead can be negligible in many applications. An interprocess communication protocol which encodes state-save progress information within message frames is introduced to checkpoint consistent system states. A rollback recovery algorithm that will force a minimum number of nodes to roll back after failures is developed  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号