• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2005, Vol. 27 ›› Issue (6): 89-92.

• 论文 • 上一篇    下一篇

MPI程序容错系统的分析和设计

张庆成 金海 张浩   

  • 出版日期:2005-06-01 发布日期:2010-07-03

  • Online:2005-06-01 Published:2010-07-03

摘要:

MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容 错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。

关键词: MPI 容错 检查点 P4通信库 消息日志