计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (05): 782-791.
魏嘉,张兴军,纪泽宇,李靖波,岳莹莹
WEI Jia,ZHANG Xing-jun,JI Ze-yu,LI Jing-bo,YUE Ying-ying
摘要: 深度神经网络DNN模型是人工神经网络ANN模型的重要分支,是深度学习的基础。近年来,由于计算机算力的提升和高性能计算技术的发展,使得通过增加DNN网络深度和模型复杂度来提高其特征提取和数据拟合的能力成为可能,从而使DNN在自然语言处理、自动驾驶和人脸识别等问题上显现了优势。然而海量的数据和复杂的模型大大提高了深度神经网络的训练开销,因此加速其训练过程成为了一项关键任务,其技术范围涵盖从底层电路设计到分布式算法设计等多个方面。国产天河三号原型机峰值速度的设计目标为百亿亿级,巨大的计算能力为DNN训练提供了潜在的契机。针对天河三号原型机ARM架构特点,采用PyTorch框架与MPI技术,针对单个MT-2000+计算节点、单个FT-2000+计算节点,以及通过拓展的多节点集群设计CNN训练策略,并对上述处理器在神经网络分布式训练的性能做出了评测和优化,为进一步提升和改进天河三号原型机在神经网络大规模分布式训练方面的表现提供了实验数据和理论依据。