计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (07): 1149-1158.
康宇晗1,时洋2,陈照云2,文梅2
KANG Yu-han1,SHI Yang2,CHEN Zhao-yun2,WEN Mei2
摘要: 为了满足深度学习模型迭代速度快、算力要求高的需求,主流硬件厂商愈发倾向于采用通用处理器+AI专用加速核的异构系统。但是,由于AI专用加速核仅支持部分核心算子,不具备通用编程能力,如何在这样的异构架构上完成深度学习任务的高效部署值得被深入研究。基于国产自研迈创+MatrixZone异构系统平台,设计并实现了深度学习编程框架KaiSa。KaiSa通过分析深度学习模型输入参数,识别算子类型并划分至对应计算核;对于复杂算子,KaiSa基于性能模型自动完成最优分块大小的搜索,提升双核并行计算的性能。同时,为了实现程序的高效率开发,KaiSa屏蔽了所有的底层硬件细节,给用户提供了一个友好的编程环境。实验结果表明,KaiSa可以获得高达39.0%的性能提升。