首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
双机双控容错系统方案是由二台服务器共同担任同一工作。当一台服务器出现故障时,另一台服务器仍然可确保系统正常运行,从而保障了系统的高可靠性、高安全性和高可用性,将系统风险降低到最低限度。双机双控系统的技术基础是近年来成熟起来的集群(Cluster)结构。Cluster集群技术的出发点是提供高可靠性、可扩充性和抗灾难性。一个Cluster包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一台服务器发生故障时,它所运行的应用程序将由其他服务器自动接管。这里以HP公司的NetServer服务器为例,对双机双控容错系统作一简单的介绍。Hp NetServer针对Cluster技术做了许多优化和改进,提供了相  相似文献   

2.
计算机系统无论是硬件还是软件都不可避免存在发生故障的可能,但并不是发生故障就一定意味着该系统完全失效。计算机系统大多拥有"容错"能力,即允许存在某些错误,尽管系统硬件有故障或程序有错误,仍能正确执行特定算法和提供系统服务。  相似文献   

3.
在高可靠性航空航天、航空电子设备和军用应用中,辐射引发的多比特翻转(MBU)成为FPGA存储器的一个主要的可靠性问题;传统的单比特错误纠正(SEC)和双比特错误检测(DED)无法对FPGA存储器发生的MBU故障提供防护,引发存储器的存储故障;为了减少MBU造成的影响,设计了RM(2,5)编码防护系统对FPGA块存储器进行容错防护,实现了单个码字小于4位的翻转错误的纠正;对RM编码系统进行了三模冗余设计,解决了RM码不具备抗辐射的缺陷;设计的RM(2,5)编译码模块在Xilinx Virtex-5 FPGA中实现,编码模块频率以225.284 MHz运行,占用LUT资源1.33%;通过理论分析和硬件实验表明,该错误检测与纠正(EDAC)系统能够纠正4位以下的翻转,提高FPGA存储器的可靠性.  相似文献   

4.
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑.  相似文献   

5.
对集群相关技术进行分析,提出了基于RAID的双机集群系统的两种应用模式.该模式通过功能整合和故障过渡技术实现集群系统的高可用性和高可靠性.  相似文献   

6.
前言电子计算机的使用已深入到各个领域里,为了进一步推广计算机的应用,需要解决两个问题:一个是软件问题,一个是可靠性问题。对于后者,即设计高可靠性的计算机一般采用两种对策:一是在工艺上改进元件质量,直接提高可靠性;一是在体系上设计容错计算机(Fault-Tolerant Computer)。容错计算机的定义为计算机在硬件发生故障、程序具有错误或系统存在缺陷的情况下,仍能正确地执行规定的任务。对于在硬件发生  相似文献   

7.
为满足旋压机运行状态远程实时监控的要求,并在故障发生时服务器能及时捕获设备的故障信息,设计了基于Internet的旋压机远程通信系统.将Socket编程技术、数据加密技术、图像显示技术和实时传输技术应用于所开发的远程通信系统中.该系统由于传输的数据量小,所以很好地解决了图像传输缓慢和复杂图像显示的问题.实践结果证明该远程通信系统具有高效率、高可靠性并能及时反馈现场机器设备的情况.  相似文献   

8.
论文主要介绍了一种在高可靠性系统中常用的错误注入测试技术,讨论该技术的原理与方法,以及在提高软件质量、增加系统健壮性等方面所发挥的作用.针对系统运行过程中常见的环境异常、外部攻击等问题,通过函数封装和虚拟输入的形式模拟各种错误和异常,用来验证系统的可靠性与健壮性,从而提高系统测试的效果和覆盖.  相似文献   

9.
何华  李航 《微机发展》2005,15(3):60-62,126
由于计算系统结构日趋复杂,系统可靠性技术研究面临新的挑战。为了把握这一技术的发展趋势,进行更深入的研究,需要清晰了解历史和现状。文中讨论如何从计算系统的设计开发到运行过程中保证系统可靠性,包括设计时对错误的避免、开发时对错误的排除和运行时对错误的处理。重点对系统运行时的软件容错技术从不同角度进行了分类,并对它们的优缺点进行了比较。这几类技术都是针对避免系统运行故障,从运行角度提高了系统可靠性。  相似文献   

10.
基于PSB的交换机主控单元冗余备份系统设计   总被引:1,自引:0,他引:1  
交换机是通信网络的核心设备,必须具备高可靠性。主控单元是交换机的核心部件,其可靠性直接决定了交换机的可靠性。本文基于PSB技术,设计了CompactPCI高可靠性的硬件平台,以实现交换机主控单元热备冗余的高可靠性要求。该系统平台可以对包括主系统板的所有插件提供冗余备份,故障板可以被自动隔离,备份件可以被自动连接,可以在线拔插系统板及其它插件,系统内的任意板卡都可以通过P S B实现数据的交换。由于采用热备冗余设计,具备高可靠性,在通信控制领域具有广阔的应用前景。  相似文献   

11.
城域网高可靠性规划与故障快速恢复技术的研究   总被引:1,自引:0,他引:1  
宽带城域网作为实时多业务的承载平台,不但要求具有高可靠性,而且要求当网络发生故障时,能够快速恢复。通过对城域网核心层和汇聚层的合理设计与规划,选择适当的故障恢复技术,完全能够满足用户对实时业务的需求。  相似文献   

12.
随着海洋技术的发展,潜艇的应用越来越广泛,在深海下潜艇一旦出事故很难像陆地上一样进行救援,因此深潜救生艇的应用必不可少;而深潜救生艇在水下航行中难免会发生故障,针对舵机可能发生的故障,设计了一种应用于深潜救生艇控制系统的TMR(triple modular redundancy)运动控制计算机系统;该系统以研究能满足于高可靠性系统的冗余技术为立足点,采用故障检测算法和表决算法,研究适用于它的冗余管理方案,以最大限度的提高冗余系统的故障容错能力;最后为验证设计方案的可行性,设计了故障模拟实验,将设计的TMR运动控制计算机系统应用于深潜救生艇的舵机控制中,用于验证冗余设计方案以及故障检测算法和表决算法的可行性;通过仿真结果证明了该控制系统对深潜救生艇舵机控制的有效性。  相似文献   

13.
电力系统的运行过程会受到多种因素的影响,如设备故障、人为失误、电力需求波动等,这些因素都可能导致电力系统故障或停机。配网自动化技术的应用,可以通过实时监控和预防性维护,及时发现潜在的故障并进行处理,避免故障的扩大和恶化,降低系统发生故障的概率。为此,分析电力系统运行效率和可靠性的影响因素,提出电力系统运行效率与可靠性问题的优化途径。结果表明,引入配网自动化技术能够提高电力系统的运行效率,降低能源浪费,同时可提供不间断的电力供应,提高电力系统的稳定性和可靠性。后期应大力推广和应用此技术,以满足用户对电力的高可靠性需求。  相似文献   

14.
由于经典的基于故障模拟的软错误可靠性分析方法不完备,而已有的基于形式化技术的方法虽然完备却又需要经验和专家支持.为此,提出一种由故障传播特征和等价性检查技术指导的软错误可靠性分析方法.首先提出故障传播时序依赖图,并利用它来提取软错误的传播行为特征;然后基于得到的故障传播行为特征对时序单元发生软错误后的电路与原电路进行等...  相似文献   

15.
由于计算系统结构日趋复杂,系统可靠性技术研究面临新的挑战.为了把握这一技术的发展趋势,进行更深入的研究,需要清晰了解历史和现状.文中讨论如何从计算系统的设计开发到运行过程中保证系统可靠性,包括设计时对错误的避免、开发时对错误的排除和运行时对错误的处理.重点对系统运行时的软件容错技术从不同角度进行了分类,并对它们的优缺点进行了比较.这几类技术都是针对避免系统运行故障,从运行角度提高了系统可靠性.  相似文献   

16.
从质量等级的概念入手,通过比较采用不同质量等级的元器件的电源系统的平均故障间隔时间,详细论述了元器件质量等级对系统可靠性的影响。最后阐明了如何正确选择及合理使用元器件,它是实现高可靠性水平系统设计的基础。  相似文献   

17.
针对空天飞行器对GNC系统的高可靠性需求,开展了基于拜占庭故障模式的GNC系统架构研究,采用四机三总线架构设计方案,通过系统内总线实现输入数据及输出数据多机冗余比对,防止拜占庭故障的发生,提升了系统可靠性,实现了系统自检测和故障的准确定位及隔离,并具有在线故障诊断、故障自修复功能,同时解决了高动态、强干扰环境下系统自主性较差的问题,提升了GNC系统可靠性和容错性;经分析,该系统架构能够满足空天飞行器在轨、再入复杂任务需求。  相似文献   

18.
一、前言 单片微型计算机由于功能强、体积小、应用灵活等诸多优点而应用越来越广。但如何确保单片机系统可靠地工作,在各个场合、各种条件下尽量不发生故障和错误,是设计系统必须考虑的一个重要问题。本文以我们研制的减振器缸筒测量仪的单片机系统为例,探讨单片机系统的可靠性设计。  相似文献   

19.
随着信息时代的进步,网络环境也随之日益复杂化,为了确保网络中服务器和应用的高可靠性,现在的网络骨干网中都设置了后备线路,一方面能够有效避免由于上层服务中断所造成的运营损失;另一方面能够在网络流量过大时对流量的负载平衡进行整合.当网络发生故障或问题时,将对企业客户造成无法估量的损失,因此,本文提出了一种基于距离向量路由协议的网络故障管理系统,以确保骨干网络的高可靠性和高可用性,为了提高系统的可扩展性与实用性,本文基于plug-and-play的思想,使得该系统只需被动监控骨干网络中的任一路由器即可实现对故障发生的可疑位置的定位.  相似文献   

20.
从质量等级的概念入手,通过比较采用不同质量等级的元器件的电源系统的平均故障间隔时间,详细论述了元器件质量等级对系统可靠性的影响.最后阐明了如何正确选择及合理使用元器件,它是实现高可靠性水平系统设计的基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号