计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (4): 599-607.
陈阳,杨希,苏华友,陈抗抗
CHEN Yang,YANG Xi,SU Huayou,CHEN Kangkang
摘要: 随着大语言模型的兴起,神经网络模型的参数规模呈指数级增长并达到千/万亿量级,模型的推理任务对计算设备的算力和带宽提出了巨大挑战。为实现低带宽设备上的高性能LLMs推理,针对带宽受限、长向量数字信号处理器体系结构,设计并实现高效的LLMs推理方法,提出基于张量形状感知的低精度矩阵乘方法,充分利用DSP的计算能力和降低访存压力的能力;提出基于数据依赖关系的算子融合方法减少中间临时数据的传输;使用延迟算子执行方法提升DSP设备内核执行效率。实验表明,该方法能够有效提升大模型在带宽受限DSP设备上的推理性能,优化后的推理方法相较于普通实现能够实现1.4~2.3倍的加速比;相较于内存带宽更高的多核ARM CPU以及Intel Xeon Gold CPU,同等核心数量下LLMs推理性能的加速比分别达到2.5倍和1.2倍以上。