• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2010, Vol. 32 ›› Issue (10): 38-43.doi: 10.3969/j.issn.1007130X.2010.

• 论文 • 上一篇    下一篇

大规模并行计算机系统硬件故障容错技术综述

富弘毅,杨学军   

  1. (并行与分布处理国防科技重点实验室,湖南 长沙 410073)
  • 收稿日期:2009-05-11 修回日期:2009-09-27 出版日期:2010-09-29 发布日期:2010-08-02
  • 作者简介:富弘毅(1978),男,新疆乌鲁木齐人,博士生,研究方向为计算机体系结构和并行计算;杨学军,教授,博士生导师,研究方向为并行计算机系统结构、并行操作系统和并行编译。
  • 基金资助:

    国家自然科学基金资助项目(60621003,60633050)

A Survey of the FaultTolerance Techniques for LargeScale Parallel Computing Systems

FU Hongyi,YANG Xuejun   

  1. (National Laboratory for Parallel and  Distributed Processing,Changsha 410073,China)
  • Received:2009-05-11 Revised:2009-09-27 Online:2010-09-29 Published:2010-08-02

摘要:

计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。

关键词: 大规模并行计算, 容错技术, 可靠性

Abstract:

Fault tolerance is critical to computer systems. Recently,as the ever increasing complexity of architecture and the development of semiconductor techniques,the density of chips becomes much higher. As a consequence,the reliability issue of computer systems emerges,not only for largescale parallel systems,but also for distributed environments,even desktop applications. This paper reviews a number of typical faulttolerance techniques concerning hardware faults proposed in recent years,especially for those designed for largescale parallel systems,draws some preliminary conclusions,and puts forward several potential  research topics of this domain.

Key words: largescale parallel computing;faulttolerance techique;reliability