J4 ›› 2013, Vol. 35 ›› Issue (11): 54-61.
张毅,陈良,庞剑
ZHANG Yi,CHEN Liang,PANG Jian
摘要:
随着高性能计算集群系统的数量及其节点规模的不断扩大,系统运行维护的难度和工作量也随之加大
。介绍的软件系统工作在多套不同软硬件环境的Linux集群系统中,采用命令行脚本程序对各集群中重要的
运行状态和指标进行自动监测,并利用socket通信的方式及时将发现的故障信息集中发送到系统管理员
Windows终端,切实提高了系统运行维护工作的效率,加快了故障处理响应时间。该系统还利用数据库对故
障事件数据进行记录管理,规范了故障处理的流程。