面向多核向量加速器的卷积神经网络推理和训练向量化方法

计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (04): 580-589.

面向多核向量加速器的卷积神经网络推理和训练向量化方法

陈杰,李程,刘仲

(国防科技大学计算机学院，湖南长沙 410073)

收稿日期:2023-01-04 修回日期:2023-05-08 接受日期:2024-04-25 出版日期:2024-04-25 发布日期:2024-04-17
基金资助:
并行与分布处理国家重点实验室基金(2021-KJWPDL-11)

Convolutional neural network inference and training vectorization method for multicore vector accelerators

CHEN Jie,LI Cheng，LIU Zhong

(College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China)

Received:2023-01-04 Revised:2023-05-08 Accepted:2024-04-25 Online:2024-04-25 Published:2024-04-17

摘要/Abstract

摘要： 随着以卷积神经网络为代表的深度学习得到广泛应用，神经网络模型中的计算量也急速增长，推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法，分别提出了卷积、池化和全连接等核心算子的向量化映射方法，采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略，充分发挥了向量加速器的体系结构优势，取得了较高的计算效率。实验结果表明，在FT-M7004平台上，卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%；全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%；VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。

关键词: 多核向量加速器, 卷积神经网络, 推理算法, 训练算法

Abstract: With the widespread application of deep learning, represented by convolutional neural networks (CNNs), the computational requirements of neural network models have increased rapidly, driving the development of deep learning accelerators. The research focus has shifted to how to accelerate and optimize the performance of neural network models based on the architectural characteristics of accelerators. For the VGG network model inference and training algorithms on the independently designed multi core vector accelerator FT-M7004, vectorized mapping methods for core operators such as convolution, pooling, and fully connected layers are proposed. Optimization strategies, including SIMD vectorization, DMA double-buffered transfer, and weight sharing, are employed to fully exploit the architectural advantages of the vector accelerator, achieving high computational efficiency. Experimental results indicate that on the FT-M7004 platform, the average computational efficiency for convolution layer inference and training is 86.62% and 69.63%, respectively; for fully connected layer inference and training, the average computational efficiency reaches 93.17% and 81.98%, respectively. The inference computational efficiency of the VGG network model on FT-M7004 exceeds that on the GPU platform by over 20%.

Key words: multicore vector accelerator, convolutional neural network, inference algorithm, training algorithm

陈杰, 李程, 刘仲. 面向多核向量加速器的卷积神经网络推理和训练向量化方法[J]. 计算机工程与科学, 2024, 46(04): 580-589.

CHEN Jie, LI Cheng, LIU Zhong. Convolutional neural network inference and training vectorization method for multicore vector accelerators[J]. Computer Engineering & Science, 2024, 46(04): 580-589.

[1]	田红鹏, 吴璟玮. RIB-NER：基于跨度的中文命名实体识别模型[J]. 计算机工程与科学, 2024, 46(07): 1311-1320.
[2]	尹春勇, 赵峰. 基于双层注意力和深度自编码器的时间序列异常检测模型[J]. 计算机工程与科学, 2024, 46(05): 826-835.
[3]	马长林, 孙状. 基于实体知识的远程监督关系抽取[J]. 计算机工程与科学, 2024, 46(05): 945-950.
[4]	曹浩东, 汪海涛, 贺建峰. 融合序列局部信息的日期感知序列推荐算法[J]. 计算机工程与科学, 2024, 46(04): 734-742.
[5]	秦文强, 吴仲城, 张俊, 李芳, . 基于异构平台的卷积神经网络加速系统设计[J]. 计算机工程与科学, 2024, 46(01): 12-20.
[6]	周理, 赵祉乔, 潘国腾, 铁俊波, 赵王. 基于RISC-V的图卷积神经网络加速器设计[J]. 计算机工程与科学, 2023, 45(12): 2113-2120.
[7]	余子丞, 凌捷. 基于Transformer和多特征融合的DGA域名检测方法[J]. 计算机工程与科学, 2023, 45(08): 1416-1423.
[8]	刘俊奇, 涂文轩, 祝恩. 图卷积神经网络综述[J]. 计算机工程与科学, 2023, 45(08): 1472-1481.
[9]	易啸, 马胜, 肖侬. 深度学习加速器在不同剪枝策略下的运行优化[J]. 计算机工程与科学, 2023, 45(07): 1141-1148.
[10]	崔克彬, 崔叶微. 基于卷积和Transformer的断路器动触头跟踪方法研究[J]. 计算机工程与科学, 2023, 45(07): 1236-1244.
[11]	排日旦·阿布都热依木, 吐尔地·托合提, 艾斯卡尔·艾木都拉, . 基于深度学习的实体关系抽取方法研究[J]. 计算机工程与科学, 2023, 45(05): 895-902.
[12]	董芃杉, 张晶, 金日泽. 基于双通道门控复合网络的中文产品评论情感分析[J]. 计算机工程与科学, 2023, 45(05): 911-919.
[13]	刘子建, 丁维龙, 邢梦达, 李寒, 黄晔. Conv-WGAIN：面向多元时序数据缺失的卷积生成对抗插补网络模型[J]. 计算机工程与科学, 2023, 45(05): 931-939.
[14]	胡宗承, 段晓威, 周亚同, 何昊. 基于多模态融合的动态手势识别研究[J]. 计算机工程与科学, 2023, 45(04): 665-673.
[15]	袁野, 黄丽清, 叶锋, 黄添强, 罗海峰, 徐超, . 基于集成学习双流神经网络的实时面部篡改视频检测模型[J]. 计算机工程与科学, 2023, 45(03): 470-477.