首页 | 本学科首页   官方微博 | 高级检索  
     

超级计算环境容错机制
引用本文:赵毅,曹宗雁,朱鹏,迟学斌.超级计算环境容错机制[J].软件学报,2013,24(S2):89-98.
作者姓名:赵毅  曹宗雁  朱鹏  迟学斌
作者单位:中国科学院 计算机网络信息中心 超级计算中心, 北京 100190;中国科学院 计算机网络信息中心 超级计算中心, 北京 100190;中国科学院 计算机网络信息中心 超级计算中心, 北京 100190;中国科学院 计算机网络信息中心 超级计算中心, 北京 100190
基金项目:国家高技术研究发展计划(863)(2011AA01A205);中国科学院知识创新工程青年人才领域项目(CNIC_QN_10004);中国科学院青年创新促进会基金
摘    要:中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.

关 键 词:超级计算  容错框架  检查点设置/回卷恢复  容错开销
收稿时间:8/5/2012 12:00:00 AM
修稿时间:2013/7/22 0:00:00

Fault-Tolerant Mechanism in Supercomputing Environment
ZHAO Yi,CAO Zong-Yan,ZHU Peng and CHI Xue-Bin.Fault-Tolerant Mechanism in Supercomputing Environment[J].Journal of Software,2013,24(S2):89-98.
Authors:ZHAO Yi  CAO Zong-Yan  ZHU Peng and CHI Xue-Bin
Affiliation:Supercomputing Center, Computer Network Information Center, The Chinese Academy of Sciences, Beijing 100190, China;Supercomputing Center, Computer Network Information Center, The Chinese Academy of Sciences, Beijing 100190, China;Supercomputing Center, Computer Network Information Center, The Chinese Academy of Sciences, Beijing 100190, China;Supercomputing Center, Computer Network Information Center, The Chinese Academy of Sciences, Beijing 100190, China
Abstract:The three layers supercomputing environment of Chinese Academy of Sciences is built to integrate the computing resources of the head center in Beijing, eight regional centers and several campus-level centers. To enhance the reliability of the supercomputing environment and provide stable and reliable computing services, the fault-tolerant mechanism research has become a research priority of the supercomputing environment. In this paper, the fault-tolerant basic concepts and computer fault-tolerant technologies are introduced at first. Next, a fault-tolerant framework of the supercomputing environment is proposed. Then the fault-tolerant solutions of different levels based on the framework and the performance test results in Deepcomp 7000 are presented. Finally, the fault-tolerant overheads of different levels are compared and analyzed to verify the impact on the application.
Keywords:supercomputing  fault-tolerant framework  checkpoint/rollback recovery  fault-tolerant overheads
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号