首页 | 本学科首页   官方微博 | 高级检索  
     

MPI容错机制的研究
引用本文:崔丽青,徐炜民. MPI容错机制的研究[J]. 计算机工程, 2004, 30(16): 88-90
作者姓名:崔丽青  徐炜民
作者单位:上海大学计算机工程与科学学院,上海,200072;上海大学计算机工程与科学学院,上海,200072
基金项目:上海市教委重大科研项目
摘    要:MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。

关 键 词:MPI  容错  检查点  卷回
文章编号:1000-3428(2004)16-0088-03

Research of Fault-tolerance Mechanism for MPI
CUI Liqing,XU Weimin. Research of Fault-tolerance Mechanism for MPI[J]. Computer Engineering, 2004, 30(16): 88-90
Authors:CUI Liqing  XU Weimin
Abstract:MPI is a parallel programming environment widely used for Cluster. Fault-tolerance of MPI is a key problem to reliability of cluster. This paper discusses the fault-tolerance, MPI standard and presents a checkpoint-based rollback recovery system for Linux cluster, MPIChaRR , with mechanisms of coordinated checkpointing and synchronized rollback. The recovery of node fault during the running of MPICH program is user-transparent.
Keywords:Message passing interface(MPI)  Fault-tolerance  Checkpoint  Rollback
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号