计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (3): 389-397.
林辰汐,李嘉伦,莫萱,周杰英,吴维刚
LIN Chenxi,LI Jialun,MO Xuan,ZHOU Jieying,WU Weigang
摘要: 深度学习DL在众多业务场景中的应用越来越广泛。如何在GPU集群中高效利用资源训练DL任务并缩短任务的完成时间,受到了工业界和学术界的持续关注。单个DL训练任务往往无法充分利用GPU的全部计算资源,传统调度器的独占式GPU分配导致资源利用率低下。提出一种基于GPU共享的任务调度框架G-Share,允许多个DL任务共享同一个GPU进行训练,即进行混部调度。在感知任务间混部干扰的基础上进行任务调度与资源分配,以提高GPU利用率进而加速任务的执行。具体来说,首先通过离线建模与在线更新的方式刻画任务间相互干扰的信息,并将基于GPU共享的调度问题建模为一个带权二部图最小匹配问题,通过求解该问题来获得资源分配结果,并结合时间片机制实现任务的动态调度来感知在线场景中任务最优混部组合的变化。在商汤科技的DL任务负载数据集上的实验表明,G-Share相比于对比方法实现了20.6%的任务平均完成时间减少。