计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (07): 1210-1217.
温鑫,曾焘,李春波,徐子晨
WEN Xin,ZENG Tao,LI Chun-bo,XU Zi-chen
摘要: 模型推理服务正随着大模型技术的发展被广泛应用,为模型推理服务构建稳定可靠的体系结构支撑逐渐成为云服务商关注的焦点。服务器无感计算是一种资源粒度细、抽象程度高的云服务计算范式,具有按需计费、弹性扩展等优势,能够有效提高模型推理服务的计算效率。但是,模型推理服务工作流呈现出多阶段的特点,独立的服务器无感计算框架难以确保模型推理服务工作流各阶段的最优执行。因此,如何利用不同服务器无感计算框架的性能特征,实现模型推理服务工作流各阶段的在线切换,缩短整体工作流的执行时间,是亟待解决的关键问题。讨论模型推理服务在不同服务器无感计算框架上的切换问题。首先,使用预训练模型构建模型推理服务函数,得出异构服务器无感计算框架的性能特征;其次,采用机器学习技术构建二分类模型,结合异构服务器无感计算框架的性能特征,实现模型推理服务在线切换框架原型;最后,搭建测试平台,生成模型推理服务工作流,完成在线切换框架原型的性能评估。初步实验结果表明,在线切换框架原型与独立的服务器无感计算框架相比,最大可缩短模型推理服务工作流57%的执行时间。