计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (12): 2128-2137.
罗婧1,2,叶志晟2,3,杨泽华2,3,傅天豪2,3,魏雄1,汪小林2,3,罗英伟2,3
LUO Jing1,2,YE Zhi-sheng2,3,YANG Ze-hua2,3,FU Tian-hao2,3,WEI Xiong1,WANG Xiao-lin2,3,LUO Ying-wei2,3
摘要: 近年来,随着深度学习模型训练需求增长,研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I,进行任务运行时关键指标的监控和数据采集,构建含任务细粒度时序资源使用信息的深度学习训练任务数据集——鹏城云脑I任务数据集。该数据集是首个面向研发类GPU集群公开数据集,揭示了研发类GPU集群中资源利用率低的现象,为研发类GPU集群高资源利用率的调度器设计提供依据和参考,推动任务调度和资源分配机制的研究。