首页 | 本学科首页   官方微博 | 高级检索  
     

大规模计算系统故障特征及容错机制分析
引用本文:武林平,罗红兵,刘勇鹏.大规模计算系统故障特征及容错机制分析[J].计算机工程与科学,2009,31(Z1).
作者姓名:武林平  罗红兵  刘勇鹏
作者单位:1. 北京应用物理与计算数学研究所,北京,100094
2. 国防科技大学计算机学院,湖南,长沙,410073
基金项目:国家自然科学基金资助项目 
摘    要:本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。

关 键 词:大规模计算系统  故障  容错  断点续算

Survey on the Dependability and the Fault Tolerance Mechanism for Large Scale Computing Systems
WU Lin-ping,LUO Hong-bing,LIU Yong-peng.Survey on the Dependability and the Fault Tolerance Mechanism for Large Scale Computing Systems[J].Computer Engineering & Science,2009,31(Z1).
Authors:WU Lin-ping  LUO Hong-bing  LIU Yong-peng
Abstract:The running stability of several large scale computing systems is discussed. First, we summaries the main fault models and features according to the public fault data. Second, based on the survey of system fault tolerance research, the challenge and likely mechanisms for fault tolerance of more large scale computing systems is introduced.
Keywords:Large scale computing system  Fault  Fault tolerance  Checkpoint restart
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号