计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (1): 28-39.
杨泓桢,程伟,杜量,黄聃,曾楚轩,肖侬
YANG Hongzhen,CHENG Wei,DU Liang,HUANG Dan,ZENG Chuxuan,XIAO Nong
摘要: 高性能计算集群的作业日志可以用来分析系统工作负载,发现系统使用的周期性规律、作业特征之间的相关性和用户行为模式,并进一步帮助开发运行时间预测模型,降低作业运行时间估计值误差,提高作业回填调度的性能。现有的预测算法侧重于提高作业运行时间的平均预测准确率,而忽略了预测值低于实际运行时间的情况(低估预测),可能导致调度器提前终止执行中的作业,降低系统资源的有效利用率。为解决上述问题,在对HPC作业特征的长期变化趋势和相关性开展分析的基础上,提出了一个集成学习模型预测作业运行时间,并提出有序扩展最大值策略调整集成模型的预测结果。实验结果表明,作业运行时间预测模型在保持较高预测准确率的同时显著降低了低估率,并且具有较好的稳定性和泛化能力。