J4 ›› 2005, Vol. 27 ›› Issue (6): 89-92.
• 论文 • 上一篇 下一篇
张庆成 金海 张浩
出版日期:
发布日期:
Online:
Published:
摘要:
MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容 错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。
关键词: MPI 容错 检查点 P4通信库 消息日志
张庆成 金海 张浩. MPI程序容错系统的分析和设计[J]. J4, 2005, 27(6): 89-92.
0 / / 推荐
导出引用管理器 EndNote|Ris|BibTeX
链接本文: http://joces.nudt.edu.cn/CN/
http://joces.nudt.edu.cn/CN/Y2005/V27/I6/89