首页 | 本学科首页   官方微博 | 高级检索  
     

MPI程序容错系统的分析和设计
引用本文:张庆成,金海,张浩. MPI程序容错系统的分析和设计[J]. 计算机工程与科学, 2005, 27(6): 89-92
作者姓名:张庆成  金海  张浩
作者单位:华中科技大学计算机科学与技术学院,湖北,武汉,430074;华中科技大学计算机科学与技术学院,湖北,武汉,430074;华中科技大学计算机科学与技术学院,湖北,武汉,430074
基金项目:国家863计划资助项目(2002AA1Z2102)
摘    要:MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。

关 键 词:MPI  容错  检查点  P4通信库  消息日志
文章编号:1007-130X(2005)06-0089-04
修稿时间:2004-02-08

Analysis and Design of the Fault Tolerant System for MPI Programs
ZHANG Qing-cheng,JIN Hai,ZHANG Hao. Analysis and Design of the Fault Tolerant System for MPI Programs[J]. Computer Engineering & Science, 2005, 27(6): 89-92
Authors:ZHANG Qing-cheng  JIN Hai  ZHANG Hao
Abstract:MPI is the most universal programming modes for large scale clusters and global computing platforms. On these platforms, node failures or disconnections are frequent events, so it is necessary to provide fault tolerance for MPI programming. This paper analyzes the key techniques of implementing the fault tolerant environment for MPI, and presents an automatic volatility tolerant MPI system based on uncoordinated checkpoints and sender based optimistic rollback message logging for Linux clusters which use MPICH P4 as their programming environment.
Keywords:MPI  fault tolerance  checkpointing  P4 communication library  message logging
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号