首页 | 本学科首页   官方微博 | 高级检索  
     

大规模并行计算机系统硬件故障容错技术综述
引用本文:富弘毅,杨学军. 大规模并行计算机系统硬件故障容错技术综述[J]. 计算机工程与科学, 2010, 32(10): 38-43. DOI: 10.3969/j.issn.1007130X.2010.
作者姓名:富弘毅  杨学军
作者单位:并行与分布处理国防科技重点实验室,湖南,长沙,410073
基金项目:国家自然科学基金资助项目 
摘    要:计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。

关 键 词:大规模并行计算  容错技术  可靠性
收稿时间:2009-05-11
修稿时间:2009-09-27

A Survey of the Fault-Tolerance Techniques for Large-Scale Parallel Computing Systems
FU Hong-yi,YANG Xue-jun. A Survey of the Fault-Tolerance Techniques for Large-Scale Parallel Computing Systems[J]. Computer Engineering & Science, 2010, 32(10): 38-43. DOI: 10.3969/j.issn.1007130X.2010.
Authors:FU Hong-yi  YANG Xue-jun
Affiliation:(National Laboratory for Parallel and  Distributed Processing,Changsha 410073,China)
Abstract:Fault tolerance is critical to computer systems. Recently,as the ever increasing complexity of architecture and the development of semiconductor techniques,the density of chips becomes much higher. As a consequence,the reliability issue of computer systems emerges,not only for large scale parallel systems,but also for distributed environments,even desktop applications. This paper reviews a number of typical fault tolerance techniques concerning hardware faults proposed in recent years,especially for those designed for large scale parallel systems,draws some preliminary conclusions,and puts forward several potential  research topics of this domain.
Keywords:large scale parallel computing  fault tolerance techique  reliability
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号