计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (11): 1912-1921.
艾晨阳,赵乐川,华涛,王新安,王颖
AI Chenyang1,ZHAO Lechuan,HUA Tao,WANG Xin’an,WANG Ying
摘要: 脉动阵列作为通用矩阵乘法(GEMM)算子的高能效加速器,受到了学术界和工业界广泛关注。然而,它往往占用大量面积,并且通常需要 VPU 单元配合使用,这种组合经常出现在神经网络加速器中。此外,它还存在时间空间利用率低、端到端场景性能有限等问题。为了解决这些问题,通过结合脉动阵列与向量处理器,提出了一种脉动向量处理器HVSA。通过对 VPU 中存储、广播和通道间通信单元进行复用,HVSA可在阵列的形状和数据流方面进行可重构配置,可以在可接受的硬件面积开销的前提下,更有效地支持 GEMM 和向量运算。同时提出了适用于 HVSA 的端到端编译框架,包括基于 MLIR 的编译前端、数据流调度和兼容 RISC-V 向量扩展的编程模型。实验数据表明,与同等面积的脉动阵列相比,HVSA 计算速度提升了 30.30 倍。在端到端应用中,相比同等面积的“VPU+脉动阵列”,HVSA的平均运行时间缩短为原来的约4.7%,能耗减少约 58.7%。