首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 265 毫秒

1.  一种基于冗余线程的GPU多副本容错技术  
   贾佳  杨学军  李志凌《计算机研究与发展》,2013年第50卷第7期
   目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述,最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义.    

2.  大规模MPI 并行计算的可扩展三模冗余容错机制  
   王之元  杨学军  周云《软件学报》,2012年第23卷第4期
   随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI 并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制.    

3.  一种基于数据流分析的故障序列生成方法  
   谭兰芳  谭庆平  徐建军《小型微型计算机系统》,2012年第33卷第4期
   故障注入是一种测评容错机制的有效方法,它通过有意识地向目标系统引入故障来加速测试容错机制的试验过程.目前大多数故障注入实验中采用的故障序列都是通过随机抽样获取的,容易造成故障潜伏,从而导致容错机制的评测结果不准确.本文提出一种基于数据流分析的故障序列生成方法.提出<故障注入位置,故障注入时间,故障类型,故障掩码>的单粒子故障模型.在此基础上,通过数据流活跃变量分析计算得出故障注入位置属性,以及定值-引用分析确定了故障注入时间属性.并以PowerPC8548处理器和它对应的Trace模拟器为实验平台,验证了该故障序列生成方法具有90%以上的失效加速比,较好地解决了故障潜伏问题.    

4.  航空发动机被动容错控制系统鲁棒性设计  
   傅强《测控技术》,2013年第32卷第5期
   针对航空发动机发生故障时系统的容错能力问题,设计了基于特征结构配置方法的容错控制系统。首先分析了被动容错控制的特点和优点,然后采用特征结构配置的方法,在配置系统极点的同时,还配置系统的特征向量,并对系统进行重新调节以获得整个系统在故障发生后的稳定性与可靠性,给出了特征结构配置方法的具体设计步骤。最后,针对某型航空发动机的设计工况点模拟系统发生故障,即参数发生摄动时,对所设计的容错系统鲁棒性进行了分析计算。仿真算例结果表明,所设计的容错系统具有较好的抗干扰能力,即较好的鲁棒性。    

5.  容错机制的测试与评估技术  被引次数:1
   孙峻朝 王建莹《微电子学与计算机》,1999年第16卷第5期
   文章分析了容错机制在其评价过程中所表现出来的若干特征,进而从测试和评估两方面讨论了容错机制的评价技术。    

6.  嵌入式多任务软件混合自容错机制  
   黄慧敏  刘秋让  张凯龙《计算机工程》,2011年第37卷第18期
   分析安全关键应用对嵌入式系统自容错能力的需求,进而研究嵌入式系统中关键任务状态的形式化描述方法及任务故障的自监测机制。在此基础上,提出一种基于策略的嵌入式多任务软件混合自容错机制。在该机制中,软件系统在监测各任务实体运行时状态的基础上,可依据不同方法对故障任务进行自恢复处理,并尽量保证系统主要功能的可靠性与稳定性。实验结果表明,该机制有助于从嵌入式软件方面提高嵌入式系统的可靠运行能力。    

7.  一种电子商务数据的分布式容错处理框架  
   张春燕  王磊《计算机与数字工程》,2008年第36卷第12期
   分布并行计算是一种通过利用大规模异构资源将把大型问题分解成若干部分来处理的一种高吞吐率计算模式.利用 Master/Worker 模型设计了电子商务数据处理的分布式框架,提出了一种分布式容错机制,能够较好的满足目前电子商务数据处理的实际需求.    

8.  CFTC2001第九届全国容错计算学术大会与成果产品展示会征文/征展通知  
   金士尧《计算机研究与发展》,2001年第5期
   承办单位 :主办单位 :中国计算机学会容错计算专业委员会 国防科技大学可靠性中心承办单位 :国防科技大学计算机学院、机电与自动化学院、人文与管理学院协办单位 :湖南大学计算机学院内 容 :(1)容错体系结构 :1容错计算机体系结构 ;2分布与并行计算机系统中的容错机制与实现 ;3网络中的高可靠、高可用、高可信的设备与技术 ;4移动计算中的容错问题 ;(2 )容错理论与软件 ;1具有容错机制的可靠、可用、可信的建模和分析理论 ;2软件容错技术 ;3网络与通信协议中的容错 ;4容错软件开发工具 ;(3)故障诊断与测试 :1故障诊断与测试理论、方法 ;2…    

9.  基于STD工业控制机的双容错系统  
   周升楼  陆远明《计算机应用》,1992年第6期
   在工业控制中使用双机系统实现控制的地方非常多,本文给出了一种独立于STD工业控制机的其它功能模板的双容错系统。分析这种双容错系统设计的容错比较冗余模块的组成,给出了实现容错的相应软件。其中包括故障检测、故障机判别、定时、同步逻辑、系统恢复、卷回机制及输出控制等技术的实现。    

10.  容错控制系统综述  被引次数:1
   张新家 戴冠中《信息与控制》,1991年第20卷第1期
   本文讨论了故障系统的容错控制设计问题.对各种故障系统的容错控制设计方法,从其原理、特征及应用等方面作了详细的综述,主要包括各种故障的监测与隔离方法和各种容错控制器的设计方法.最后对容错控制系统设计的发展趋势作了简要介绍.    

11.  Web服务组合运行时的容错处理  
   张立敏  高春鸣  蔡美玲《计算机工程与应用》,2008年第44卷第3期
   基于WebJet服务组合组装与运行平台,设计了一个基于反馈容错机制、支持Web服务组合运行时自动容错处理的基本框架。针对服务组合运行时的时间QoS质量和用户SLA计算容错选择因子,运用聚类算法确定容错边界值,提出容错处理的一般映射方法,并给出了故障处理及流程重构区域计算方法。系统支持流程在线自恢复,适应复杂的网络生态环境,为流程执行时业务功能与服务质量的保障提供了一种有效的机制。    

12.  静态分析面向异构系统的应用级Checkpoint 设置问题  
   贾佳  杨学军  马亚青《软件学报》,2013年第24卷第6期
   应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术,该技术由用户程序员选择在适当的地方保存关键数据,从而降低了容错开销。选择合适的checkpointing位置、减小全局checkpoint保存数据量是优化应用级 checkpointing 技术的关键问题。对于近年来推出的带有通用 GPU 的异构系统上的应用级checkpointing 技术,也同样面临上述问题。针对异构系统体系结构和程序特征,对面向异构系统的应用级checkpointing 技术的检查点设置进行了静态分析,提出两套不同机制的检查点设置方法:同步及异步检查点设置方法,并分别就checkpointing优化设置问题对其进行数学建模和求解。最后,通过实验验证并评估了所提出的两种方法的性能。    

13.  基于COTS技术的高可靠通用容错计算机容错机制研究  
   欧中红  袁由光  赵晓勇《计算机科学》,2006年第33卷第4期
   本文提出并实现了一种基于COTS部件、容错机制智能实现的、新颖的通用高可靠容错计算机系统。基于容错功能与用户应用相分离的原则,应用自主设计的智能管理模块。实现对COTS部件内部状态的可观察性。详细分析了系统的容错机制。利用提出的故障逃逸模型,分析了系统中的层次化故障检测和保护措施并估计了系统故障覆盖率。    

14.  无线传感器网络中网络层故障容错技术研究进展  被引次数:2
   李洪兵  熊庆宇  石为人  王小刚        《计算机应用研究》,2013年第30卷第7期
   故障容错能提高无线传感器网络的稳定性和可靠性, 是无线传感器网络的一项关键技术。网络层容错及跨层协同优化设计是网络故障容错的重要研究内容, 主要对网络层容错技术研究进行了归纳和总结。网络层容错控制技术主要分为多路由传输、纠删编码/网络编码、数据重传机制、跨层协同优化与复合容错和仿生智能容错等, 并对网络层容错控制技术研究趋势作了探讨。    

15.  软件注入故障的跟踪及其响应分析研究  
   陆瑶《信息与电脑》,2011年第1期
   随着计算机应用领域的日益广泛,计算机的可靠性问题越来越关键。为了保证容错机制在应用时能达到预期效果,必须要在系统应用之前对这些容错机制的有效性、可靠性进行验证。基于此,本文将基于PIN对目标程序进行软件注入故障,并进行跟踪及影响分析。    

16.  基于ProActive的容错调度器设计与实现  
   梁正友  孙宇《计算机应用》,2008年第28卷第2期
   在分布式计算系统中保证并行应用计算的正确性及提高计算系统中动态资源的利用率是一个重要的研究问题。在原有的基于ProActive的并行计算平台上,引入呼吸通信机制、故障节点发现机制和子任务重新调度机制,设计和实现了一个容错调度系统。实验表明该调度器在部分节点出现故障的情况下,能保证并行计算的正确性,并具有较好的性能。    

17.  处理器容错技术研究与展望  被引次数:2
   傅忠传  陈红松  崔刚  杨孝宗《计算机研究与发展》,2007年第44卷第1期
   随着生产工艺的进步和硅形体尺寸的缩小,计算机系统面临着前所未有的瞬态故障影响,可信计算已经成为桌面级和嵌入式系统设计和应用的热点,其中以处理器的可信设计为核心.首先,从容错技术角度对处理器提出了一种新颖的、比较全面的分类方法;在此基础上,以处理器容错技术发展趋势为线索,对目前流行的处理器结构、微结构的容错机制和容错技术以及不同层次上有代表性的最新研究成果做了介绍和分析;最后,对处理器容错技术研究新趋势及其发展方向提出了意见和建议.    

18.  基于神经网络的非线性系统故障检测及容错控制方法  被引次数:8
   李庆国  冯玉珠  佟绍成  柴天佑《信息与控制》,1998年第27卷第6期
   利用神经网络的非线性建模能力,提出了一种非线性系统的故障检测及容错控制方法。在本方法中,首先应用神经网络设计故障估计器,在线估计系统故障向量,实现故障检测;在此基础上,引入补偿控制器,消除故障对系统运行的影响,从而实现容错控制。同时基于Lyapunov方法进行了稳定性分析。    

19.  一类非线性系统的故障检测与容错控制算法  被引次数:4
   李秀琴  李书臣《测控技术》,2005年第24卷第8期
   针对仿射非线性系统提出了一种稳定的故障检测及容错控制算法.该算法利用神经网络对系统故障进行建模,在线估计故障向量,监测系统运行情况;在反馈回路中引用故障辅助反馈控制回路,实现容错控制;并基于Lyapunov方法进行了稳定性分析.控制系统可运行于两种模式:系统正常时,采用常规反馈控制器(CC);有故障发生时,引入补偿控制来削弱故障影响,保障系统的正常运行.最后对一类非线性电机的仿真控制结果表明了此容错控制方法的有效性.    

20.  FISDR:一种新的故障注入无线传感器网络性能评估系统  
   黄旭  陈冬岩  李会  邵珠瑜  于磊磊《计算机工程与科学》,2012年第34卷第7期
   在无线传感器网络WSN中,可靠性和容错性是评价WSN稳定性的重要指标。在WSN的实际应用中常会发生很多故障(Fault)和干扰,采用故障注入FI技术可以向WSN人为地注入这些故障和干扰,通过观察注入故障后网络的反应来评价网络的可靠性和容错性,从而对网络机制进行改进来提高网络的可靠性和稳定性。本文提出的FISDR是一种采用故障注入的WSN性能评估系统,基于软件故障注入方法,采用一对一的方式通过特殊接口与WSN节点连接,向WSN节点注入故障命令。该系统一是可以有效地向WSN注入各种实际应用时可能遇到的故障和干扰并观察网络运行的状况;二是可以接收包括WSN节点和其它各种设备通过特殊接口发来的数据,并将其存储;三是配有上位机软件对网络拓扑结构进行监控、对传输成功率进行统计并对存储的大量信息进行分析,从而对WSN网络及其可靠性做出评价。本系统在一栋五层办公楼分别用数十个WSN节点和FISDR节点做实验,实验内容包括使用FISDR向WSN注入大规模的故障并统计网络的反应状况,验证FISDR故障注入的效果,从而对FISDR的性能进行测试和分析。实验结果表明,FISDR可以有效地向WSN注入各种故障以评价其可靠性,在测试WSN及其可靠性评价方面有很高的应用价值。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号