计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (10): 1753-1761.
唐阳坤1,2,鲜港1,2,杨文祥2,3,喻杰2,张晓蓉1,王耀彬1
TANG Yang-kun1,2,XIAN Gang1,2,YANG Wen-xiang2,3,YU Jie2,ZHANG Xiao-rong1,WANG Yao-bin1
摘要: 超级计算机的规模不断扩大,与此同时,科学应用的复杂性也在不断增加,这导致了超级计算机上许多作业失败。作业失败会造成资源浪费,排队作业等待时间延长,严重影响系统的执行效率。提前预测作业失败,就可以采取必要的措施提升系统资源利用率和系统执行效率,这对未来的E级超级计算机至关重要。为此,尝试研究从已知的传统特征和构建特征中预测作业失败,发现能够反映用户工作行为模式和提交行为模式的特征及处理方式。通过结合行为特征和传统特征,提出基于树结构模型的综合框架来预测作业失败。实验结果表明,预测效果优于其他相关方法。