首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
褚杰  原亮  赵强  丁国良  吴彩华 《计算机工程》2009,35(23):10-11,1
为提高恶劣环境中控制系统的可靠性,将三模块冗余(TMR)容错与演化硬件(EHW)自修复相结合,实现基于TMR—EHW结构的现场可编程门阵列电机控制系统。该系统利用TMR快速发现和定位故障,屏蔽出错模块并保持容错运行,利用EHW进行自修复,使出错模块恢复正常工作,系统可靠性得到提高。  相似文献   

2.
基于SRAM型FPGA的实时容错自修复系统设计方法   总被引:1,自引:0,他引:1  
为提高辐射环境中电子系统的可靠性,提出了一种基于SRAM型FPGA的实时容错自修复系统结构和设计方法。该设计方法采用粗粒度三模冗余结构和细粒度三模冗余结构对系统功能模块进行容错设计;将一种细粒度的故障检测单元嵌入到各冗余模块中对各冗余模块进行故障检测;结合动态部分重构技术可在不影响系统正常工作的前提下实现故障模块的在线修复。该设计结构于Xilinx Virtex誖-6 FPGA中进行了设计实现,实验结果表明系统故障修复时间和可靠性得到显著提高。  相似文献   

3.
可重构系统的演化修复机制   总被引:1,自引:0,他引:1  
利用演化算法实现系统自修复是一种新的容错设计思路,但是演化是一个非常耗时的过程.已有的演化容错系统多属于静态演化,演化过程仅发生在系统设计阶段,系统在运行过程中不具有演化修复的能力.这类演化容错系统虽然可以避免演化耗时,但是只能修复已知错误,无法修复未知错误.针对上述问题,文中提出一种基于动态演化的修复机制,容错系统采用可重构系统和被检测系统的耦合设计方案.当被检测系统出现故障时,可重构系统通过系统演化实现在线自修复.为了减少演化耗时,系统根据错误类型采取不同措施:如果出现已知错误,系统直接在预置配置库中搜索修复配置;如果出现未知错误,则通过动态演化在线生成修复配置,并更新预置配置库.最后,将该容错设计方案用于典型电路的故障模式.实验结果表明,文中提出的演化修复机制提高了系统运行的实时可靠性,预置配置库设计减少了演化耗时.  相似文献   

4.
系统异构冗余容错设计研究   总被引:1,自引:0,他引:1  
提出了一种新的三模异构冗余自修复系统的设计方法,设计出了异构评价函数。利用演化硬件具有自适应与自修复的功能,实现了具有N模冗余特性的三模冗余电路。首先,利用遗传算法进化出3个原始功能电路;然后,每进化出一个具有相同功能的电路进行一次非相似度评价,选择出非相似度最大的3个电路保留,并进行应用。当3个异构电路中有一个出错后,对故障电路屏蔽,可进化修复该出错电路,并重新投入运行。从而大大地提高了容错性能,且具有体积小、成本低、功耗小、不影响系统正常运行等优点。利用现场可编程逻辑门阵列(FPGA)对二位比较器进行容错设计验证,分析比较了非相似度评价在异构设计中的作用与影响,实验结果证明了新方法的可行性和电路的高度可靠性。  相似文献   

5.
三模冗余中局部重构及模块同步技术研究   总被引:1,自引:0,他引:1  
传统的三模冗余方法仅能容错,无法进行故障修复,当两个模块出错时系统将无法正常工作;采用局部动态可重构技术虽然可以修复故障,但修复后的模块与其他模块状态不同步,无法立即工作,需等待系统完成当前任务后重新同步,在同步前如果另有模块发生故障,系统仍将无法工作。本文对三模冗余系统中的模块同步方法进行了研究,当某一故障模块被重构修复后,可以迅速与其他模块同步,尽快加入系统工作,避免因故障积累造成的系统失效。该方法可以有效缩短冗余模块从故障修复到重新加入系统工作之间的等待时间,大大提高三模冗余的可靠性。  相似文献   

6.
针对嵌入式网络设备的服务可靠性问题,现有的网口容错主要采用双网卡冗余设计,研究针对单网卡多网口的情况,提出了一种网口容错方法,该方法能有效利用系统带宽资源。提出的网口容错方法包括一种网口状态检测机制和故障网口服务数据迁移方法,并设计了相应的功能模块。故障检测模块实现基于Loopback的检测方法,容错处理模块则实现在检测到故障后,可将故障网口的服务负载数据根据迁移策略迁移到其余正常网口。所提出的方法实现了对网口工作状态的快速检测和负载数据的有效容错。该方法具有应用无关性、资源占用率低的特点,通过测试验证了该方法的可行性。  相似文献   

7.
TMR容错计算故障恢复技术研究   总被引:1,自引:0,他引:1  
提出了一种可伸缩的TMR容错计算系统结构,根据TMR系统出现故障的情况,详细研究了其故障恢复模型和恢复策略.通过综合采用向前和向后恢复方法有效减少了由于实现容错功能而对系统运行进程完成时间的推延并进行了定量分析和验证.  相似文献   

8.
演化硬件的自修复特性能够有效解决电路系统的可修复性故障,但演化硬件存在电路演化速度慢、演化成功率不高的缺陷,如何在修复约束期限内完成电路演化成为关键难点。提出一种基于演化硬件的实时系统容错架构,通过建立故障树实时监测电路故障,利用故障补偿机制维持系统正常运行,并采用演化硬件技术修复电路故障,实现故障的在线实时修复。采用FPGA构建容错系统测试环境,通过随机故障注入对比验证不同演化算法的自修复能力,实验结果表明,在实时性约束下故障电路的修复率达到95%,有效提升了系统的稳定性和可靠性。  相似文献   

9.
文中设计了一种容错系统,该系统是建立在应用程序层之下、操作系统层之上位置结构的中间件.系统由三模冗余与其之间的通信链路组成系统的硬件结构以及由故障检测模块(对节点的检测和对应用程序的检测)、故障处理模块所组成的软件部分构成.基于 VxWorks 实时操作系统,设计了一种高可用的容错中间件系统,分析了系统的组成原理,给出了基于心跳检测的故障检测机制和 N 版本编程方法进行故障检测,以及前向和后向任务恢复方法进行故障恢复,并实现了原型系统.试验表明:给出的容错中间件系统具备了基本的容错能力,可有效提高系统的可用性和可靠性  相似文献   

10.
为提高飞机配电系统的可靠性,设计了一种双余度飞机交流一次配电控制器。对以DSP为核心的处理器模块进行冗余设计,每个处理器设置相应的故障检测机制,由FPGA构成的仲裁切换模块根据故障检测结果进行余度切换与管理;采用外触发中断方式控制双机运行周期,实现双机同步。从而实现了双处理器容错控制,有效地提高了控制器的可靠性。  相似文献   

11.
This paper proposes a checkpoint rollback strategy for real-time systems with double modular redundancy.Without built-in fault-detection and spare processors,our scheme is able to recover from both transient and permanent faults.Two comparisons are conducted at each checkpoint.First,the states stored in two consecutive checkpoints of one processor are compared for checking integrity of the processor.The states of two processors are also compared for detecting faults and the system rolls back to the previous checkpoint whenever required by logic of the proposed scheme.A Markov model is induced by the fault recovery scheme and analyzed to provide the probability of task completion within its deadline.The optimal number of checkpoints is selected so as to maximize the probability of task completion.  相似文献   

12.
李秀玲  杨明 《测控技术》2021,40(4):30-34
为解决型号研制中备件分析流程指导性不强、备件预测计算模型选控对比原则缺失、备件配置大量冗余的现状,从装备使用维护任务出发,开展基于工程应用的备件分析方法及仿真研究.依据行业标准规范,结合型号备件配置经验,制定基于工程应用的备件分析流程.以最少的保障资源需求满足装备固有的可靠性和安全性水平为前提,开展预防性维修备件分析,建立航空装备状态与保障资源的映射.选取适用于工程应用的修复性维修备件预测模型,基于Matlab仿真完成各预测模型选控对比研究.通过开展基于工程应用的备件分析及仿真研究,可实现航空装备备件的定性分析和定量计算,减少备件冗余,提高装备可用性和备件资源利用率.  相似文献   

13.
文章介绍了一种利用自检测和互监测方法保证故障监测覆盖率和虚警率,适用于双机热备冗余系统的故障监测技术,主要论述了系统的总体结构,讨论了实现系统主从机状态高速自动切换的关键技术,并重点阐述了在PXI热备冗余测控系统中采用的各种故障监测手段,最终实现了在非实时操作系统下热备冗余系统主从机状态的高速自动切换,提高了测试设备自身的可靠性,保证了测试数据的正确性,有效解决了多种场合下地面测控系统要求长时间不间断可靠工作的难题。  相似文献   

14.
王之元  杨学军  周云 《软件学报》2012,23(4):1022-1035
随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI 并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制.  相似文献   

15.
随着互联网环境下计算系统规模的不断扩大,分布式流体系结构的可靠性问题面临着严峻的挑战。以多模冗余容错技术为基础,针对软错误提出了一种面向分布式流体系结构的多副本积极容错技术TREFT,利用三个程序副本进行高效的检错与纠错。在分布式流体系结构原型系统上的实验结果表明,该技术能有效提高系统的可靠性,具有较低的容错成本,平均增加10.77%的容错开销。  相似文献   

16.
对系统可靠性的探讨一直是航天飞行器设计过程中的首要议题,飞行控制系统作为核心系统,一旦出现故障会导致整个飞行任务的失败。以提升飞行可靠性需求为出发点,提出了一种基于1553B总线的飞行控制计算机三冗余设计方案,给出了冗余飞控系统的架构设计、控制板硬件构成、三模块同步方案和表决算法等设计方法,完成了飞行控制系统的冗余设计策略研究。为适应飞控系统的国产化、小型化、轻质化设计趋势,采用了基于国产SoC芯片的SiP模块以实现工程化。为研究三冗余系统方案可靠性,分析其工作状态建立了Markov模型。最后以Simulink图形化建模方法完成了相关仿真,通过对系统进行典型故障注入验证了冗余管理算法,仿真结果表明提高系统故障检测覆盖率有利于增强系统可靠性。  相似文献   

17.
Network-on-Chip (NoC) is widely used as a communication scheme in modern many-core systems. To guarantee the reliability of communication, effective fault tolerant techniques are critical for an NoC. In this paper, a novel fault tolerant architecture employing redundant routers is proposed to maintain the functionality of a network in the presence of failures. This architecture consists of a mesh of 2 × 2 router blocks with a spare router placed in the center of each block. This spare router provides a viable alternative when a router fails in a block. The proposed fault-tolerant architecture is therefore referred to as a quad-spare mesh. The quad-spare mesh can be dynamically reconfigured by changing control signals without altering the underlying topology. This dynamic reconfiguration and its corresponding routing algorithm are demonstrated in detail. Since the topology after reconfiguration is consistent with the original error-free 2D mesh, the proposed design is transparent to operating systems and application software. Experimental results show that the proposed design achieves significant improvements on reliability compared with those reported in the literature. Comparing the error-free system with a single router failure case, the throughput only decreases by 5.19% and latency increases by 2.40%, with about 45.9% hardware redundancy.  相似文献   

18.
吴剑  徐中伟  喻钢  李弋强 《计算机工程》2009,35(15):117-120
针对传统可靠性分析方法容易忽视冗余多态性、可修复性等安全苛求系统特性问题,在形式化的系统可靠性建模中引入可修复因子,提出一种模块化动态故障树分析方法。在动态和静态相结合的模块化定量分析过程中,利用马尔可夫模型和顶事件发生概率逼近算法,有效避免动态故障树分析过程中的状态组合爆炸问题,提高安全苛求系统可靠性分析的可行性和实践效率。  相似文献   

19.
郭亮  唐稚松 《软件学报》2003,14(1):54-61
使用XYZ/E描述和验证三机冗余容错系统.考虑每台计算机加载了一个不断向外界环境输出数据的确定性顺序程序P,用XYZ/E程序SingleProcessorP刻画程序P在单机上运行,用时序逻辑式SpecP刻画P向外部环境输出的数据所满足的性质.最后证明,采用三机冗余模式所得到的程序TripleProcessorsP即使在出现硬件错误的情况下运行,也能满足性质SpecP.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号