• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (9): 1535-1543.

• 高性能计算 • 上一篇    下一篇

基于多源日志语义分析的异构超算平台作业故障识别

胡鹤1,赵毅1,顾蓓蓓1,2,赵芸卿1   

  1. (1.中国科学院计算机网络信息中心,北京  100083;
    2.中国科学院大学,北京  100190)
  • 收稿日期:2024-12-18 修回日期:2025-02-15 出版日期:2025-09-25 发布日期:2025-09-22
  • 基金资助:
    国家自然科学基金(62372428);2024年中国科学院算力基础设施运维与服务项目(CAS-WX2024YW-0102)

A job failure identification method of heterogeneous supercomputing platforms based on semantic analysis of multi-source logs

HU He1,ZHAO Yi1,GU Beibei1,2,ZHAO Yunqing1   

  1. (1.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083;
    2.University of Chinese Academy of Sciences,Beijing 100190,China)

  • Received:2024-12-18 Revised:2025-02-15 Online:2025-09-25 Published:2025-09-22

摘要: 为了充分利用高性能计算环境资源并提升作业完成效率,提出了一种面向大规模分布式高性能异构平台的作业故障识别方法,通过对作业运行时的日志数据进行分析来发现异常。然而,海量的日志数据对人类而言缺乏直观性,难以快速理解。因此,基于多源日志语义分析,利用潜在狄利克雷分布主题LDA模型对作业运行过程中多个来源的日志进行语义分析,构建主题随时间变化的序列模型,并通过与历史故障作业的序列模型进行匹配,实现对作业异常的预测。在某国产异构高性能计算平台上开展的实验结果表明,所提方法在作业异常识别方面表现优异,识别精度高达95.2%。该方法不仅增强了作业异常的预知能力,还能够协助用户和系统管理员快速定位异常原因,从而显著提升了高性能计算环境的可用性。

关键词: 数据处理, 故障识别, 混合异构, 语义分析, 潜在狄利克雷分布

Abstract: This paper presents a method for detecting job anomalies in large-scale distributed HPC heterogeneous platforms.Analyzing job runtime logs is vital for detecting anomalies,but the sheer volume of logs hinders human comprehension.To address this,we introduce a multi-source log semantic analysis approach using latent Dirichlet allocation (LDA) to analyze logs from various sources.By modeling topic evolution over time and matching with historical faulty job patterns,it predicts anomalies.Experiments on a domestic HPC platform show 95.2% precision,enhancing predictive capability and aiding users and administrators in quickly diagnosing issues,thereby improving HPC environment availability and efficiency.

Key words: data processing, fault identification, hybrid heterogeneity, semantic analysis, latent Drichlet allocation(LDA)