计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (12): 2129-2138.
刘高,徐建良,张先轶,刘贤冬
LIU Gao,XU Jianliang,ZHANG Xianyi,LIU Xiandong
摘要: 随着计算设备种类的增加和计算能力的迅速提升,以及模型数量的不断增加,在多平台上实现多模型的高效推理已成为一项复杂且艰巨的任务。为应对这一挑战,开发了OpenLM框架,该框架旨在在多个平台上快速实现多模型的高性能推理支持。OpenLM框架具备广泛的模型兼容性,内置了多平台和多架构的高性能计算算子,以最大限度发挥硬件性能。同时,OpenLM拥有灵活的框架结构,便于快速集成和支持最新的模型。为进一步优化推理过程中的显存和内存消耗、任务调度与系统稳定性,框架中引入了分页注意力机制、动态批处理、权重量化和KV cache量化等特性。经实验证明,上述优化策略能够有效提升推理效率,并降低资源开销,以增强框架的整体性能。