首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向CPU-GPU 异构系统的容错方法
引用本文:徐新海,杨学军,林宇斐,林一松,唐滔.一种面向CPU-GPU 异构系统的容错方法[J].软件学报,2011,22(10):2538-2552.
作者姓名:徐新海  杨学军  林宇斐  林一松  唐滔
作者单位:国防科学技术大学 计算机学院 并行与分布处理国家重点实验室,湖南长沙,410073
基金项目:国家自然科学基金(60921062,60873016)
摘    要:近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU异构系统的Lazy容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价.

关 键 词:GPGPU  异构系统  容错  Lazy策略  检查点
收稿时间:2010/4/28 0:00:00
修稿时间:2011/5/18 0:00:00

Fault-Torlerance Method for CPU-GPU Heterogeneous System
XU Xin-Hai,YANG Xue-Jun,LIN Yu-Fei,LIN Yi-Song and TANG Tao.Fault-Torlerance Method for CPU-GPU Heterogeneous System[J].Journal of Software,2011,22(10):2538-2552.
Authors:XU Xin-Hai  YANG Xue-Jun  LIN Yu-Fei  LIN Yi-Song and TANG Tao
Affiliation:XU Xin-Hai,YANG Xue-Jun,LIN Yu-Fei,LIN Yi-Song,TANG Tao(National Laboratory for Parallel and Distributed Processing,College of Computer,National University of Defense Technology,Changsha 410073,China)
Abstract:In recent years,heterogeneous parallel architecture has become an important development trend of supercomputer because it mitigates the problem of increasingly high power consumption. As a high performance and power efficiency accelerator,GPU(graphics processing unit) has been extensively used in HPC(high performance computing) area. However,the inherent unreliability of the GPU hardware deteriorates the reliability of supercomputer. Presently,most research of FT(fault-tolerance) techniques for CPU-GPU hete...
Keywords:GPGPU  heterogeneous system  fault-tolerance  Lazy strategy  checkpointing  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号