MPI容错问题的研究及实现 |
| |
作者姓名: | 崔丽青 徐炜民 |
| |
作者单位: | 上海大学计算机工程与科学学院,上海,200072 |
| |
基金项目: | 上海市教委重大科研项目(E-研究院项目) |
| |
摘 要: | 集群式计算机由于其良好的性能价格比已经成为高性能计算的主要发展方向,可靠性是这一类平台的主要问题.基于消息传递的MPI是广泛应用于集群系统的并行程序开发环境,实现MPI的容错对避免异常情况下应用程序从头执行造成的计算浪费具有重大意义.文中讨论了MPI标准中的容错以及回卷恢复这一容错技术,并以自强2000-SUHPCS为平台设计了针对MPICH并行消息传递库的容错系统.
|
关 键 词: | 集群 MPICH 容错 回卷恢复 |
文章编号: | 1001-9081(2003)12Z-0236-03 |
修稿时间: | 2003-06-09 |
本文献已被 CNKI 万方数据 等数据库收录! |
|