首页 | 本学科首页   官方微博 | 高级检索  
     

并行复算:一种面向高性能计算的新的容错方法
引用本文:王攀峰,杜云飞,富弘毅,杨学军,周海芳.并行复算:一种面向高性能计算的新的容错方法[J].计算机科学,2009,36(3):21-25.
作者姓名:王攀峰  杜云飞  富弘毅  杨学军  周海芳
作者单位:国防科技大学计算机学院并行与分布处理国家重点实验室,长沙,410073
摘    要:Checkpointing是高性能计算领域最常用的容错技术.但是,当处理器数目变大时,这种技术的性能迅速恶化.提出一种在并行计算中容忍单进程故障的新方法:并行复算.这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错.还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序.最后通过实验对该方法进行评估.结果显示,当处理器数目变大时,并行复算的开销低于checkpointing,其优化方法能提供优于并行复算的性能.

关 键 词:高性能计算  容错  并行复算
收稿时间:2008/4/29 0:00:00

Parallel Recomputing:A New Approach for Fault-tolerant High Performance Computing
WANG Pan-feng,DU Yun-fei,FU Hong-yi,YANG Xue-jun,ZHOU Hai-fang.Parallel Recomputing:A New Approach for Fault-tolerant High Performance Computing[J].Computer Science,2009,36(3):21-25.
Authors:WANG Pan-feng  DU Yun-fei  FU Hong-yi  YANG Xue-jun  ZHOU Hai-fang
Affiliation:National Laboratory for Paralleling and Distributed Processing;College of Computer;National University of Defense Technology;Changsha 410073;China
Abstract:Checkpointing is the most commonly used scheme for tolerating faults in high-performance computing systems.But this scheme has its performance limitation when the number of processors becomes much larger.The paper proposed a new approach called parallel recomputing for tolerating a single process failure in parallel computing.The main feature of our approach is that it utilizes the computing power of the redundant processor instead of the storage capacity.The paper also presented an optimization of this app...
Keywords:High-performance computing  Fault tolerance  Parallel recomputing  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号