计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (03): 416-425.
张立志,冉浙江,赖志权,刘锋
ZHANG Li-zhi,RAN Zhe-jiang,LAI Zhi-quan,LIU Feng
摘要: 近年来,深度学习技术的进步推动人工智能进入了一个新的发展时期。但是,海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战,分布式深度学习应运而生,逐渐成为应对这一挑战的有效手段,而高效的参数通信架构是保证分布式深度学习性能的关键。针对传统分布式深度学习模型同步架构在大规模节点上并行训练的问题,首先,分析了集中式的Parameter Server和去中心化的Ring Allreduce这2种主流的参数通信架构的原理和性能。然后,在天河高性能GPU集群上基于TensorFlow构建了2种分布式训练架构的对比测试环境。最后,以Parameter Server架构为基准线,测试了Ring Allreduce架构在GPU集群环境下训练AlexNet和ResNet-50的对比性能。实验结果表明,在使用32个GPU的情况下,Ring Allreduce架构扩展效率可达97%,相比Parameter Server架构,其分布式计算性能可提升30%,验证了Ring Allreduce架构具有更好的可扩展性。