计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (12): 2135-2145.
张天阳,池成悦,郭武,高亦沁,文敏华,韦建文
ZHANG Tian-yang,CHI Cheng-yue,GUO Wu,GAO Yi-qin,WEN Min-hua,WEI Jian-wen
摘要: 随着高性能计算的业务增长和规模扩大,机房空间、供电能力等外部因素常常会成为集群扩容升级的制约因素,由此产生了异地超算集群的建设需求。异地超算能突破单个集群的地理限制,提供更多算力资源。基于上海交通大学“交我算”计算平台建设异地联合超算集群的实践,总结了基础设施与系统软件的统一管理方法,以及集群异地容灾的高可用设计,具体包括:适配Slurm作业调度系统、Open OnDemand可视化门户站点、扩展LDAP等基础服务的高可用能力,以及建设分层汇聚监控系统。最后,从数据传输、用户体验和平台可用性3个维度展示了异地超算集群方案的有效性。