OpenLM：多平台高性能的大语言模型推理框架

计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (12): 2129-2138.

OpenLM：多平台高性能的大语言模型推理框架

刘高,徐建良,张先轶,刘贤冬

(1.中国海洋大学信息科学与工程学部，山东青岛 266100；2.澎峰（北京）科技有限公司，北京 100080)

收稿日期:2025-02-20 修回日期:2025-03-04 出版日期:2025-12-25 发布日期:2026-01-06

OpenLM: A multi-platform and high-performance large language model inference framework

LIU Gao,XU Jianliang,ZHANG Xianyi,LIU Xiandong

(1.Faculty of Information Science and Engineering,Ocean University of China,Qingdao 266100；
2.Peng Feng(Beijing) Technology Co.,Ltd.,Beijing 100080,China)

Received:2025-02-20 Revised:2025-03-04 Online:2025-12-25 Published:2026-01-06

摘要/Abstract

摘要： 随着计算设备种类的增加和计算能力的迅速提升，以及模型数量的不断增加，在多平台上实现多模型的高效推理已成为一项复杂且艰巨的任务。为应对这一挑战，开发了OpenLM框架，该框架旨在在多个平台上快速实现多模型的高性能推理支持。OpenLM框架具备广泛的模型兼容性，内置了多平台和多架构的高性能计算算子，以最大限度发挥硬件性能。同时，OpenLM拥有灵活的框架结构，便于快速集成和支持最新的模型。为进一步优化推理过程中的显存和内存消耗、任务调度与系统稳定性，框架中引入了分页注意力机制、动态批处理、权重量化和KV cache量化等特性。经实验证明，上述优化策略能够有效提升推理效率，并降低资源开销，以增强框架的整体性能。

关键词: 深度学习, 大语言模型, 高性能计算, 大模型推理框架

Abstract: As computational devices continue to diversify and computational power grows rapidly, the increasing number of large language models (LLMs) has made efficient multi-model inference across heterogeneous platforms a complex and formidable challenge. To address this, we propose OpenLM, a high-performance inference framework to support efficient deployment of multiple LLMs on diverse hardware platforms. The OpenLM framework boasts extensive model compatibility, providing efficient performance support for a wide range of models. It incorporates high-performance computing operators optimized for multiple platforms and architectures to maximize hardware performance. Meanwhile, OpenLM features a flexible framework architecture that facilitates rapid integration and support for the latest models. To further optimize memory (both GPU and CPU memory) consumption, task scheduling, and system stability during the inference process, the framework introduces features such as Paged- Attention mechanisms, dynamic batching, weight quantization, and KV cache quantization. According to the experimental results, these optimization strategies effectively enhance inference efficiency, reduce resource overhead, and bolster overall framework performance.

Key words: deep learning, large language model (LLM), high-performance computing (HPC), LLM inference framework

刘高, 徐建良, 张先轶, 刘贤冬. OpenLM：多平台高性能的大语言模型推理框架[J]. 计算机工程与科学, 2025, 47(12): 2129-2138.

LIU Gao, XU Jianliang, ZHANG Xianyi, LIU Xiandong. OpenLM: A multi-platform and high-performance large language model inference framework[J]. Computer Engineering & Science, 2025, 47(12): 2129-2138.

[1]	石璐, 邹高远, 伍思琦, 张少帅. 基于Tensor Cores的新型GPU架构的高性能Cholesky分解[J]. 计算机工程与科学, 2025, 47(7): 1170-1180.
[2]	曾垂振1, 2, 崔良中1, 马文卓2. 基于ERNIE模型的雷达维修命名实体识别研究[J]. 计算机工程与科学, 2025, 47(6): 1106-1113.
[3]	徐春, 孙恩威, 汪晓洁. 基于知识和数据双驱动的DRG医疗问答研究[J]. 计算机工程与科学, 2025, 47(6): 1121-1132.
[4]	李俊哲, 付振新, 杨宏辉, 马银萍, 李若淼, 樊春, . 面向算力网络的跨集群数据迁移系统的设计和实现[J]. 计算机工程与科学, 2025, 47(5): 775-786.
[5]	贾春波, 陈光, 姚信安, 李宝峰. 基于国产元器件的大功率多相供电技术研究[J]. 计算机工程与科学, 2025, 47(4): 592-600.
[6]	陈宇灵, 李翔. 基于图结构提示实现低资源场景下的节点分类[J]. 计算机工程与科学, 2025, 47(3): 534-547.
[7]	张云泉, 邓力, 袁良, 袁国兴. 2025年中国高性能计算机发展现状分析[J]. 计算机工程与科学, 2025, 47(12): 2091-2098.
[8]	唐晋韬, 张成贤, 鲍琛龙, 李文静. 基于大语言模型的面向领域的非连续命名实体识别[J]. 计算机工程与科学, 2025, 47(12): 2253-2260.
[9]	裴炳森, 李欣, 樊志杰, 蒋章涛, 孙昊扬, 刘梓锐. 基于大语言模型的司法文本摘要研究[J]. 计算机工程与科学, 2025, 47(11): 2008-2018.
[10]	王冬, 刘壮, 黄小猛. 一种面向地球系统模式的高效并行计算框架[J]. 计算机工程与科学, 2025, 47(10): 1711-1925.
[11]	张建民, 许炜康, 刘津津, 黎铁军. 粒子输运非确定性模拟的加速方法研究进展[J]. 计算机工程与科学, 2025, 47(1): 1-9.
[12]	孙岩, 张建民, 黎渊, 孙舜禹. 面向高性能计算的互连网络拥塞控制分析与评估[J]. 计算机工程与科学, 2024, 46(2): 209-216.
[13]	张云泉, 邓力, 袁良, 袁国兴. 2024年中国高性能计算机发展现状分析[J]. 计算机工程与科学, 2024, 46(12): 2091-2098.
[14]	朱文龙, 江嘉治, 黄聃, 肖侬. ParM:基于国产处理器的异构并行编程模型[J]. 计算机工程与科学, 2023, 45(9): 1521-1531.
[15]	吴铁彬, 过锋, 王谛. 面向E级计算的高性能处理器核心运算架构研究进展[J]. 计算机工程与科学, 2023, 45(5): 761-771.