期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

胡平王忠群王勇《计算机工程与设计》2010,31(19)

为消除或降低容错软件开发人员对非业务逻辑的关注度要求,提升系统的可维护性,提出了一种支持容错逻辑动态织入的非侵入式容错软件模型.通过在设计阶段将容错逻辑抽取成为若干独立可管理的容错切面,并在运行时将其动态织入软件系统中以保证软件服务质量.分析了声明式容错策略,探讨了以软件冗余副本为容错机制的容错切面建模和编织方法.最后基于此模型扩展了一个J2EE常规应用,使之具有容错能力.测试结果表明,该模型能有效提升容错软件的开发效率和可维护性. 相似文献

2.

软件容错模型中反向与正向调度算法研究

下载免费PDF全文

刘东张春元《计算机工程与科学》2007,29(9):101-105

为了保证实时系统在发生任务失效时仍旧能够正常地工作，通常采用软件容错模型来提高实时系统的容错能力。本文分析了软件容错模型中的BCE容错调度算法，针对该算法中的反向调度和正向调度两个过程，给出了RMB、DMB、FDMB、EDFB四种反向调度算法和RMF、EDFF两种正向调度算法，并指出了反向调度和正向调度相互协调的特性。将各种算法在BCE算法中进行模拟，结果表明，EDFF正向调度算法能够与四种反向调度算法更好地协调，从而获得比RMF正向调度算法更高的调度性能；模拟结果还表明，四种反向调度算法在BCE算法中的性能相近。最后，本文得出了RMB（或DMB）反向调度算法与EDFF正向调度算法的组合较适用于软件容错模型的结论。相似文献

3.

硬实时系统中基于软件容错模型的容错调度算法 总被引：1，自引：0，他引：1

丁万夫郭锐锋秦承刚郭凤钊《计算机研究与发展》2011,48(4)

在硬实时系统中,由于任务超时完成将会导致灾难性后果,因此硬实时系统必须具有实时性和可靠性保障.软件容错模型是提高硬实时系统容错能力的一种有效方法.针对硬实时系统中容错优先级两种分配策略存在的不足,基于软件容错模型提出了一种容错优先级可提升的双重优先级分配策略.该方法通过为替代版本分配双重优先级,不仅能够提高硬实时系统的容错能力,同时还能够显著减少任务间的抢占次数.为了获得双重优先级分配的最佳策略,基于任务最坏响应时间的可调度性分析,首先提出了一种最大的双重优先级配置搜索算法(MDPCSA).然后结合MDPCSA算法,提出了一种最优的双重优先级配置搜索算法(ODPCSA).仿真实验表明,与两种分配策略相比,在提高系统容错能力和降低抢占开销方面更为有效. 相似文献

4.

自恢复容错系统的模型和分析

郭成昊刘风玉《计算机科学》2006,33(11):274-277

容错系统不仅会产生硬件故障,而且连续长时间的运行,系统的性能还会逐渐下降或失效,即老化现象。本文综合考虑容错系统中的硬件故障和老化现象,提出了将传统的冗余策略和软件抗衰策略相结合,并给出了该系统的时间颜色Petri网(ti med-CPN)模型,并结合实例进行了分析。相似文献

5.

高效的部分冗余容错编译:复制错误流关键子图 总被引：1，自引：0，他引：1

高珑王之元杨学军《软件学报》2007,18(9):2105-2116

传统的容错编译通常复制所有的计算并且使用完全冗余的存储单元来保证容错.这种完全冗余在存储空间和性能上的开销都是相当大的.在错误流分析的基础上提出错误流图的关键子图的概念以及通过关键结点和关键路径生成关键子图的方法,并设计了通过复制错误流关键子图实现部分冗余的算法.在保证有效容错能力的同时,部分冗余明显减小了经过容错编译的程序在存储空间和性能上的开销.实验显示,与复制全部错误流图的完全冗余相比,在结点覆盖率降低6.25%的情况下,部分冗余算法最多能够减少寄存器的使用数量6.25%,减少功耗超过17%,减少执行时间接近26%,同时提高性能超过22%. 相似文献

6.

基于CPU使用率监测的软件容错研究

王小刚曹东《计算机科学》2014,41(7):25-29

在硬实时操作系统中,任务超时运行将会给系统带来灾难性后果。为了提高系统的可靠性和容错能力,系统设计需要采取一定容错策略。系统的CPU使用率是实时系统运行正常与否的重要指标,其可以表征系统的时间特性和任务状态。针对CPU使用率的特点以及容错监测的要求,选取机器周期作为时间信息统计的基准;分析监测周期不同对监测效果的影响;提出了嵌入式实时系统CPU使用率异常的判决条件;并结合结构冗余和时间冗余的思想,设计了4种处置方法用于CPU使用率异常处置。仿真测试表明,基于CPU使用率监测的软件容错方法可以有效提高系统的可靠性和容错能力。相似文献

7.

实时嵌入式容错系统的关键技术研究

毛南黄岚王忠义刘志存《计算机工程与设计》2007,28(14):3433-3435,3439

简要回顾了容错技术的发展过程并分析了不同故障模型下系统的客错方式.对于瞬时故障、间歇性故障的容错可采用软件冗余方法,在实时嵌入式系统中采用软件容错时必须考虑任务的可调度性;而永久性故障则采用硬件冗余方法来解决.在此基础上,描述了一种实时双机嵌入式容错系统的模型,研究了构建容错系统需要解决的双机同步、故障检测及仲裁切换等关键问题和相应的解决方法. 相似文献

8.

一种基于冗余线程的GPU多副本容错技术

贾佳杨学军李志凌《计算机研究与发展》2013,50(7)

目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述,最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义. 相似文献

9.

基于时间策略的主动软件容错技术

何欣楚艳萍宋亚林《福建电脑》2007,(9):3-4

随着计算机系统复杂度的不断增加,软件失效造成的损失越来越普遍。如何降低系统损失,提高系统的可靠性成为人们面对的主要问题。软件容错技术目前是降低软件失效,提高系统可靠性的主要途径。本文根据软件容错技术的发展现状,在分析传统软件容错技术缺陷的基础上,介绍了一种新的主动软件容错技术--软件自愈,并对基于时间策略的自愈模型进行了详细的分析。相似文献

10.

RTEMS嵌入式系统中的软件容错设计 总被引：1，自引：0，他引：1

下载免费PDF全文

张靓刘光明《计算机工程与科学》2007,29(5):147-151

为了提高嵌入式系统在恶劣环境下的可靠性,除了在硬件上采用诸如双机冷备份之类的容错方案外,在实时操作系统级提供软件容错处理功能既可以减小硬件资源开销,又可以在不影响系统工作效率的前提下明显提高系统的容错纠错能力.本文针对RTEMS实时操作系统缺乏软件容错支持功能的不足,在操作系统级设计了一套两级软件容错的方案,提高了嵌入式系统的可靠性. 相似文献

11.

Supporting Cost-Effective Fault Tolerance in Distributed Message-Passing Applications with File Operations 总被引：1，自引：0，他引：1

Ouyang Jinsong Maheshwari Piyush 《The Journal of supercomputing》1999,14(3):207-232

In this paper we present an approach to reliable distributed computing, which incorporates fault tolerance into applications at low cost, in terms of both run-time performance and programming effort required to construct reliable application software. In our model fault tolerance is based on distributed consistent checkpointing and rollback-recovery integrated with a user-level reliable transmission protocol. By employing novel techniques 8and algorithms, our approach is distinguished from other consistent checkpointing schemes by the following features: first, minimum communication overhead for constructing a consistent distributed checkpoint and catching messages in transit during checkpointing; second, tolerance to message losses due to site failures or unreliable non-FIFO networks; and third, efficient checkpointing and recovery of persistent state, i.e., user files. Based on the model, a software library prototype called Libra has been implemented for supporting fault tolerance in distributed message-passing applications with file operations. The library provides an easy to use programming interface including message-passing and file I/O primitives, which hides the complexity of both fault-tolerant network communications and checkpointing and recovering user files from the application level. Experience with a number of long-running distributed applications shows that Libra can provide fault tolerance in a cost-effective manner. 相似文献

12.

PLR: A Software Approach to Transient Fault Tolerance for Multicore Architectures

Shye Alex Blomstedt Joseph Moseley Tipp Reddi Vijay Janapa Connors Daniel A. 《Dependable and Secure Computing, IEEE Transactions on》2009,6(2):135-148

Transient faults are emerging as a critical concern in the reliability of general-purpose microprocessors. As architectural trends point toward multicore designs, there is substantial interest in adapting such parallel hardware resources for transient fault tolerance. This paper presents process-level redundancy (PLR), a software technique for transient fault tolerance, which leverages multiple cores for low overhead. PLR creates a set of redundant processes per application process and systematically compares the processes to guarantee correct execution. Redundancy at the process level allows the operating system to freely schedule the processes across all available hardware resources. PLR uses a software-centric approach to transient fault tolerance, which shifts the focus from ensuring correct hardware execution to ensuring correct software execution. As a result, many benign faults that do not propagate to affect program correctness can be safely ignored. A real prototype is presented that is designed to be transparent to the application and can run on general-purpose single-threaded programs without modifications to the program, operating system, or underlying hardware. The system is evaluated for fault coverage and performance on a four-way SMP machine and provides improved performance over existing software transient fault tolerance techniques with a 16.9 percent overhead for fault detection on a set of optimized SPEC2000 binaries. 相似文献

13.

协同系统中可扩展的动态容错模型研究及实现 总被引：1，自引：0，他引：1

王玎金海袁平鹏黎时才《小型微型计算机系统》2006,27(6):1054-1058

针对协同系统的特点以及其对可靠性、实时性和性能等方面的要求，提出了一种可扩展的动态容错模型xDFT（Extensible Dynamic Fault Tolerance Model，xDFT）．本容错模型将容错支持结构和容错机制结合在一起：在本模型中首先定义了一种可扩展的、动态容错支撑结构；基于此，提出了一种容错机制．xDFT模型能够根据系统负载状况设定服务节点的负载阈值，改变服务冗余度，不仅提高了服务效率，而且以一种简单有效的方式实现了负载平衡．相似文献

14.

Fault Tolerance Achieved in VLSI

Emmerson R. Mcgowan M.J. 《Micro, IEEE》1984,4(6):34-43

This quad-modular redundant system offers a cost-effective alternativefor supporting fault tolerance by incorporating hardware/software independence and five redundancy mechanisms to correct both transient and permanent errors. 相似文献

15.

一种中间件服务容错配置管理方法 总被引：1，自引：0，他引：1

李军国黄罡邹键梅宏《计算机学报》2007,30(10):1696-1704

提出一种基于运行时刻软件体系结构的容错管理方法,支持开发者和管理员针对不同中间件服务失效定制合适的故障检测和修复机制.首先,运行时刻软件体系结构自动构造构件依赖视图和错误传播①视图,为理解和分析整个系统的可靠性提供全局视图;然后,操作运行时刻软件体系结构配置容错机制;最后利用AOP技术将容错机制插装到中间件中,使其具备指定的容错能力.上述过程在一个可视化工具的辅助下半自动实施,并在J2EE中间件上得到验证. 相似文献

16.

Application-Level Fault Tolerance as a Complement to System-Level Fault Tolerance 总被引：1，自引：1，他引：0

Haines Joshua Lakamraju Vijay Koren Israel Krishna C. Mani 《The Journal of supercomputing》2000,16(1-2):53-68

As multiprocessor systems become more complex, their reliability will need to increase as well. In this paper we propose a novel technique which is applicable to a wide variety of distributed real-time systems, especially those exhibiting data parallelism. System-level fault tolerance involves reliability techniques incorporated within the system hardware and software whereas application-level fault tolerance involves reliability techniques incorporated within the application software. We assert that, for high reliability, a combination of system-level fault tolerance and application-level fault tolerance works best. In many systems, application-level fault tolerance can be used to bridge the gap when system-level fault tolerance alone does not provide the required reliability. We exemplify this with the RTHT target tracking benchmark and the ABF beamforming benchmark. 相似文献

17.

基于拜占庭容错的前摄恢复算法

陈柳周伟《计算机与现代化》2013,(12):38-40

针对现有拜占庭容错中的恢复算法不适用于主动复制品的这一问题,提出支持有状态复制品的前摄恢复算法。每个复制品维护一个恢复队列。当到达一个检查点后,使用该前摄恢复算法复制品检查恢复队列,在服务复制品发生错误前,提前将复制品恢复成正确的状态。如果复制品已经出错,该算法也适用。实验分析结果显示算法的有效性。相似文献

18.

空间探测中基于COTS部件的软件容错技术

下载免费PDF全文

杨学军高珑《计算机工程与科学》2007,29(8):82-87

随着航天活动的发展，空间探测任务对于高性能计算的需求越来越明显，高性能的空间超级计算机成为决定下一代空间探测计划成败的关键之一。专用的防辐射计算部件不仅价格昂贵，而且在性能上远远落后于同时代的商用部件（COTS）。使用软件容错技术在COTS部件上搭建空间超级计算机，在达到和专用防辐射部件同样的容错效果的前提下，能够大幅度降低成本，提高性能和性能／功耗比。美国国家宇航局和斯坦福大学的实验已经验证，使用COTS部件有助于实现低成本高效能的下一代空间科学探测计划。相似文献

19.

大规模MPI 并行计算的可扩展三模冗余容错机制

王之元杨学军周云《软件学报》2012,23(4):1022-1035

随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI 并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制. 相似文献