GNNSched：面向GPU的图神经网络推理任务调度框架

计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (01): 1-11.

GNNSched：面向GPU的图神经网络推理任务调度框架

孙庆骁,刘轶,杨海龙,王一晴,贾婕,栾钟治,钱德沛

(北京航空航天大学计算机学院，北京 100191)

收稿日期:2022-12-28 修回日期:2023-03-04 接受日期:2024-01-25 出版日期:2024-01-25 发布日期:2024-01-15
基金资助:
科技创新2030——“新一代人工智能”重大项目(2022ZD0117805)；国家自然科学基金(62072018,62322201，U22A2028);中央高校基本科研业务费专项资金(YWF-23-L-1121)

GNNSched: A GNN inference task scheduling framework on GPU

SUN Qing-xiao,LIU Yi,YANG Hai-long,WANG Yi-qing,JIA Jie,LUAN Zhong-zhi,QIAN De-pei

(School of Computer Science and Engineering,Beihang University,Beijing 100191，China)

Received:2022-12-28 Revised:2023-03-04 Accepted:2024-01-25 Online:2024-01-25 Published:2024-01-15

摘要/Abstract

摘要： 由于频繁的显存访问，图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性，直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务，需要根据其输入特点预先分析并发任务的显存占用情况，以确保并发任务在GPU上的成功共置。此外，多租户场景提交的推理任务亟需灵活的调度策略，以满足并发推理任务的服务质量要求。为了解决上述问题，提出了GNNSched，其在GPU上高效管理GNN推理任务的共置运行。具体来说，GNNSched将并发推理任务组织为队列，并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组，这些任务组被迭代地提交到GPU并发执行。实验结果表明，GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。

关键词: 图神经网络, 图形处理器, 推理框架, 任务调度, 估计模型

Abstract: Due to frequent memory access, graph neural network (GNN) often has low resource util- ization when running on GPU. Existing inference frameworks, which do not consider the irregularity of GNN input, may exceed GPU memory capacity when directly applied to GNN inference tasks. For GNN inference tasks, it is necessary to pre-analyze the memory occupation of concurrent tasks based on their input characteristics to ensure successful co-location of concurrent tasks on GPU. In addition, inference tasks submitted in multi-tenant scenarios urgently need flexible scheduling strategies to meet the quality of service requirements for con-current inference tasks. To solve these problems, this paper proposes GNNSched, which efficiently manages the co-location of GNN inference tasks on GPU. Specifically, GNNSched organizes concurrent inference tasks into a queue and estimates the memory occupation of each task based on a cost function at the operator level. GNNSched implements multiple scheduling strategies to generate task groups, which are iteratively submitted to GPU for concurrent execution. Experimental results show that GNNSched can meet the quality of service requirements for concurrent GNN inference tasks and reduce the response time of inference tasks.

Key words: graph neural network (GNN), graphic processing unit (GPU), inference framework, task scheduling, estimation model

孙庆骁, 刘轶, 杨海龙, 王一晴, 贾婕, 栾钟治, 钱德沛. GNNSched：面向GPU的图神经网络推理任务调度框架[J]. 计算机工程与科学, 2024, 46(01): 1-11.

SUN Qing-xiao, LIU Yi, YANG Hai-long, WANG Yi-qing, JIA Jie, LUAN Zhong-zhi, QIAN De-pei. GNNSched: A GNN inference task scheduling framework on GPU[J]. Computer Engineering & Science, 2024, 46(01): 1-11.

编辑推荐

Metrics

阅读次数

全文

819

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	819

来源	本网站	其他网站

次数	631	188
比例	77%	23%

摘要

453

最新录用	在线预览	正式出版

0	0	453

	来源	本网站

	次数	453
	比例	100%

[1]	陈子雄, 陈旭, 景永俊, 宋吉飞. 基于图神经网络的源代码漏洞检测研究综述[J]. 计算机工程与科学, 2024, 46(10): 1775-1792.
[2]	姜晶菲, 何源宏, 许金伟, 许诗瑶, 钱希福. NM-SpMM：面向国产异构向量处理器的半结构化稀疏矩阵乘算法[J]. 计算机工程与科学, 2024, 46(07): 1141-1150.
[3]	吴超, 卫谦, 周俊伟, 李会民, 孙广中. 基于异构计算平台的背景噪声预处理并行算法[J]. 计算机工程与科学, 2023, 45(10): 1711-1719.
[4]	温瑞林, 樊春, 马银萍 , 王政丹, 向广宇 , 付振新. SlurmX：基于Slurm使用面向对象设计方法重构的任务调度系统[J]. 计算机工程与科学, 2022, 44(09): 1532-1541.
[5]	李文佳, 史岚, 季航旭, 罗意彭. 面向Flink的负载均衡任务调度算法的研究与实现[J]. 计算机工程与科学, 2022, 44(07): 1141-1151.
[6]	罗磊, 陈照云, 王俪璇. 用户QoS感知的GPU集群深度学习任务动态调度[J]. 计算机工程与科学, 2021, 43(08): 1331-1340.
[7]	杨坚伟, 孟敏, 黄家乐, 武继刚. 分布式训练异构任务调度算法研究[J]. 计算机工程与科学, 2021, 43(07): 1160-1167.
[8]	黄山, 房六一, 徐浩桐, 段晓东, . 面向容器环境的Flink的任务调度优化研究[J]. 计算机工程与科学, 2021, 43(07): 1173-1184.
[9]	邢红星, 魏叶华, 乐懿. 硬件成本缩减的异构分布式嵌入式系统调度算法[J]. 计算机工程与科学, 2021, 43(02): 258-265.
[10]	陈虎, 韩建国. GPU上典型存储器难散列函数的优化[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1905-1912.
[11]	贾朝阳, 张敦博, 王琼, 沈立. 一种高效的压缩Page Walk Cache结构[J]. 计算机工程与科学, 2020, 42(09): 1521-1528.
[12]	胡亚红1，盛夏2，毛家发1. 资源不均衡Spark环境任务调度优化算法研究[J]. 计算机工程与科学, 2020, 42(02): 203-209.
[13]	朱永超1，周川1，崔玉伟2，郭健1，吴益飞1. 基于模拟退火算法的改进主/副版本调度算法[J]. 计算机工程与科学, 2019, 41(09): 1534-1540.
[14]	王宇新，王飞，王冠，郭禾. 一种基于两级DAG模型的MapReduce工作流异构调度算法[J]. 计算机工程与科学, 2019, 41(08): 1353-1359.
[15]	方程，邢座程，陈顼颢，张洋. 一种基于GPU的高性能稀疏卷积神经网络优化[J]. 计算机工程与科学, 2018, 40(12): 2103-2111.