计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (9): 1535-1543.
胡鹤1,赵毅1,顾蓓蓓1,2,赵芸卿1
HU He1,ZHAO Yi1,GU Beibei1,2,ZHAO Yunqing1
摘要: 为了充分利用高性能计算环境资源并提升作业完成效率,提出了一种面向大规模分布式高性能异构平台的作业故障识别方法,通过对作业运行时的日志数据进行分析来发现异常。然而,海量的日志数据对人类而言缺乏直观性,难以快速理解。因此,基于多源日志语义分析,利用潜在狄利克雷分布主题LDA模型对作业运行过程中多个来源的日志进行语义分析,构建主题随时间变化的序列模型,并通过与历史故障作业的序列模型进行匹配,实现对作业异常的预测。在某国产异构高性能计算平台上开展的实验结果表明,所提方法在作业异常识别方面表现优异,识别精度高达95.2%。该方法不仅增强了作业异常的预知能力,还能够协助用户和系统管理员快速定位异常原因,从而显著提升了高性能计算环境的可用性。