计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (04): 580-589.
陈杰,李程,刘仲
CHEN Jie,LI Cheng,LIU Zhong
摘要: 随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。