计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (12): 2138-2148.
敬超1,2,闭玉申1
JING Chao1,2,BI Yu-shen1
摘要: 由于GPU可以加速深度学习作业的处理,许多研究人员通过提高GPU利用率来达到减少作业完成时间的目的。与传统的作业独占GPU资源来减少作业完成时间不同,考虑了多个作业共置的问题(即同一个GPU中同时执行多个作业能有效提高GPU利用率并减少作业完成时间),提出了一种面向深度学习作业的干扰感知在线调度算法(OASIS)。该算法首先在作业共置的情况下,使用改进的机器学习方法构建了作业所需资源的预测模型。其次,为了计算作业间干扰值,设计了一种作业组合模型,通过模型计算的干扰值来主动修改作业调度策略以避免无效调度,达到减少作业完成时间的目的。最后,在真实环境中部署了实验,实验结果表明:提出的OASIS算法与经典的FCFS算法、MBP算法和SJF算法相比,不仅平均作业总体完成时间缩短了5.7%,而且平均能耗降低了4.0%,验证结果充分说明了该算法的有效性和优越性。