计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (05): 802-809.
刘晓航1,姜晶菲2,许金伟2
LIU Xiao-hang1,JIANG Jing-fei2,XU Jin-wei2
摘要: 注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍。