首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于冗余线程的GPU多副本容错技术
引用本文:贾佳,杨学军,李志凌.一种基于冗余线程的GPU多副本容错技术[J].计算机研究与发展,2013,50(7).
作者姓名:贾佳  杨学军  李志凌
作者单位:1. 并行与分布处理国家重点实验室(国防科学技术大学计算机学院) 长沙410073
2. 乌鲁木齐民族干部学院 乌鲁木齐 830002
摘    要:目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述,最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义.

关 键 词:通用GPU  异构系统  冗余线程  容错技术  多副本

A Redundancy-Multithread-Based Multiple GPU Copies Fault-Tolerance Technique
Jia Jia , Yang Xuejun , Li Zhiling.A Redundancy-Multithread-Based Multiple GPU Copies Fault-Tolerance Technique[J].Journal of Computer Research and Development,2013,50(7).
Authors:Jia Jia  Yang Xuejun  Li Zhiling
Abstract:
Keywords:general purpose GPU(GPGPU)  heterogeneous system  redundancy multithread  fault-tolerance technique  multiple copies
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号