一种支持优化分块策略的矩阵乘加速器设计

计算机工程与科学

一种支持优化分块策略的矩阵乘加速器设计

沈俊忠，肖涛，乔寓然，杨乾明，文梅

（国防科学技术大学计算机学院,湖南长沙 410073）

收稿日期:2015-12-10 修回日期:2016-03-16 出版日期:2016-09-25 发布日期:2016-09-25
基金资助:
国家863计划（2012AA012706）；国家自然科学基金（61272145）

A matrix multiplication accelerator design for optimization blocking strategy

SHEN Jun zhong,XIAO Tao,QIAO Yu ran,YANG Qian ming,WEN Mei

（College of Computer,National University of Defense Technology,Changsha 410073,China）

Received:2015-12-10 Revised:2016-03-16 Online:2016-09-25 Published:2016-09-25

摘要/Abstract

摘要：

在许多应用领域中，大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵，我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限，计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时，由于只支持固定分块大小，大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题，提出了一种有效的优化分块策略。在此基础上，在Xilinx公司的Zynq XC7Z045 FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元，该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48 GFLOPS的实测性能，而所需带宽仅为4.8 GB/s。实验结果表明，我们提出的分块策略相比于传统的分块算法实现了高达12％的性能提升。

关键词: FPGA, 非均匀矩阵, 矩阵乘法, 分块策略

Abstract:

Large scale floating point matrix multiplication is one of the most time consuming computational kernels in many applications. There is a feature in emerging applications that matrices usually own at least one small dimension, which is called non uniform large scale matrix multiplication. Due to the limited amount of onchip memory for storing intermediate results on FPGA, partitioning largescale matrix multiplication into fine grained subblock computational tasks is needed. When accelerating non uniform matrix multiplications, most of the existing hardware matrix multipliers with a linear array architecture can suffer great performance reduction due to the fixed sub block size support. To solve this problem, we propose an efficient optimization blocking strategy. Based on it, we implement a novel matrix multiplier to support variable subblock operations on a Xilinx Zynq XC7Z045 FPGA. By integrating 224 processing elements (PEs), the multiplier achieves up to 48 GFLOPS for non uniform matrix multiplication in real application at 150 MHz with requirement of 4.8 GB/s of memory bandwidth. Results show that our proposed blocking strategy can improve up to 12% of performance in comparison with traditional blocking algorithms.

Key words: FPGA, non uniform matrix, matrix multiplication, blocking strategy

沈俊忠，肖涛，乔寓然，杨乾明，文梅. 一种支持优化分块策略的矩阵乘加速器设计[J]. 计算机工程与科学.

SHEN Jun zhong,XIAO Tao,QIAO Yu ran,YANG Qian ming,WEN Mei. A matrix multiplication accelerator design for optimization blocking strategy [J]. Computer Engineering & Science.

[1]	李珍琪, 王强, 齐星云, 赖明澈, 赵言亢, 陆亿行, 黎渊. 轻量化卷积神经网络硬件加速设计及FPGA实现[J]. 计算机工程与科学, 2025, 47(4): 582-591.
[2]	申锦尚, 张庆顺, 宋铁锐. 基于FPGA的高速AES实现与列混合改进[J]. 计算机工程与科学, 2025, 47(4): 612-620.
[3]	闫少辉, 姜嘉伟, 崔宇. 基于三维混沌系统的图像加密及FPGA实现[J]. 计算机工程与科学, 2025, 47(4): 686-694.
[4]	李胜国, 廖霞, 于恒彪, 黄春, 姜浩, 逯喜燕, 王华林, 成礼智. 面向结构矩阵的可扩展并行矩阵乘算法框架[J]. 计算机工程与科学, 2024, 46(9): 1529-1538.
[5]	王鹏, 张嘉诚, 范毓洋, . 适应于硬件部署的神经网络剪枝量化算法[J]. 计算机工程与科学, 2024, 46(9): 1547-1553.
[6]	马柯帆, 李宝峰, 周悦锦, 武园园, 余永兰, 多瑞华. 基于ZYNQ 芯片的基板管理控制器设计与实现[J]. 计算机工程与科学, 2024, 46(2): 217-223.
[7]	赵祉乔, 周理, 荀长庆, 潘国腾, 铁俊波, 王伟征 . 软硬件混合的高效CHI协议分析[J]. 计算机工程与科学, 2024, 46(2): 224-231.
[8]	秦文强, 吴仲城, 张俊, 李芳, . 基于异构平台的卷积神经网络加速系统设计[J]. 计算机工程与科学, 2024, 46(1): 12-20.
[9]	王玉雷, 谢凯亮, 陈思贇, 胡杰, 常胜. 卷积神经网络硬件加速的通用性设计[J]. 计算机工程与科学, 2023, 45(4): 577-581.
[10]	陆松, 蒋句平, 任会峰. 基于FPGA快速实现定制化RISC-V处理器[J]. 计算机工程与科学, 2022, 44(10): 1747-1752.
[11]	赵小强, 姜晶菲, 许金伟, 窦勇. 基于FPGA的卷积神经网络加速器动态余数处理映射模型[J]. 计算机工程与科学, 2021, 43(9): 1521-1528.
[12]	栾奕, 刘昌华. 基于TPU和FPGA的深度学习边缘计算平台的设计与实现[J]. 计算机工程与科学, 2021, 43(6): 976-983.
[13]	王霞, 郑龙飞, 王蒙军, 张红丽, 吴建飞, . 一种高性能FPGA辐射发射抑制方法研究[J]. 计算机工程与科学, 2021, 43(5): 814-819.
[14]	郭辉, 黄立波, 郑重, 隋兵才, 王永文. Proto-Perf：快速精确的通用处理器原型系统性能评估方法[J]. 计算机工程与科学, 2021, 43(4): 579-585.
[15]	孙兆鹏, 周宽久. 基于PCIe的高性能FPGA-GPU-CPU异构编程架构[J]. 计算机工程与科学, 2021, 43(4): 641-651.