基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化

J4 ›› 2016, Vol. 38 ›› Issue (2): 202-209.

基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化

阳王东1,2 ,李肯立2

(1.湖南城市学院信息科学与工程学院,湖南益阳 413000;2.湖南大学信息科学与工程学院,湖南长沙 410008)

收稿日期:2015-04-10 修回日期:2015-06-05 出版日期:2016-02-25 发布日期:2016-02-25
基金资助:
国家自然科学基金重点项目（61432005）;国家自然科学基金（61472124,61572175）;湖南省科技计划项目（2015SK200062）

Implementation and optimization of HYB based SpMV
on CPU+GPU heterogeneous computing systems

YANG Wangdong1,2,LI Kenli2

(1.School of Information Science and Engineering,Hunan City University,Yiyang 413000;
2.College of Information Science and Engineering,Hunan University,Changsha 410008,China)

Received:2015-04-10 Revised:2015-06-05 Online:2016-02-25 Published:2016-02-25

摘要/Abstract

摘要：

稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。

关键词: GPU, 稀疏矩阵, SpMV, CUDA, 异构计算

Abstract:

Sparse matrix vector multiplication (SpMV) is an important issue in solving sparse linear systems. The sparse features and the low computing density lead to low computation efficiency. Regarding the irregularities of the sparse matrixes, some hybrid storage formats are used to compute SpMV to improve the compression efficiency and expand the range of adaptation. HYB is a hybrid compression format of ELL and COO formats, and is widely used on SpMV because of its stable performance. With the common application of parallel computing on GPUs and multicore CPUs, the heterogeneous computing system based on CPU+GPU is accepted. The ELL of HYB is assigned to the GPU for processing and the COO of HYB is assigned to the CPU, which can take full advantages of both CPU and GPU computing resources to improve the utilization efficiency of computing resources. In this paper, based on the analysis of the characteristics of the CPU + GPU heterogeneous computing model, we propose some optimization strategies to improve the performance of SpMV in the heterogeneous computing environment.

Key words: GPU;sparse matrix;SpMV;CUDA;heterogeneous computing

阳王东1,2 ,李肯立2. 基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J]. J4, 2016, 38(2): 202-209.

YANG Wangdong1,2,LI Kenli2. Implementation and optimization of HYB based SpMV
on CPU+GPU heterogeneous computing systems [J]. J4, 2016, 38(2): 202-209.

[1]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[2]	石璐, 邹高远, 伍思琦, 张少帅. 基于Tensor Cores的新型GPU架构的高性能Cholesky分解[J]. 计算机工程与科学, 2025, 47(7): 1170-1180.
[3]	彭林, 张鹏, 陈俊峰, 唐滔, 黄春. 基于监督学习的稀疏矩阵乘算法优选[J]. 计算机工程与科学, 2025, 47(3): 381-391.
[4]	田茜, 李暾, 程悦, 皮彦, 邹鸿基. GPU上基于环展开的RTL模拟加速技术研究[J]. 计算机工程与科学, 2025, 47(2): 191-199.
[5]	张宗茂, 董德尊, 王子聪, 常俊胜, 张晓云, 王绍聪. 基于便笺式存储器的向量化SpMV算法的性能评估与分析[J]. 计算机工程与科学, 2024, 46(9): 1521-1528.
[6]	周智, 高建花, 计卫星. 基于FPGA和行折叠的稀疏矩阵向量乘优化[J]. 计算机工程与科学, 2024, 46(8): 1340-1348.
[7]	李沛桢, 张洋, 陈文波. 基于DPCT的序列比对软件迁移与性能评估[J]. 计算机工程与科学, 2024, 46(8): 1372-1380.
[8]	姜晶菲, 何源宏, 许金伟, 许诗瑶, 钱希福. NM-SpMM：面向国产异构向量处理器的半结构化稀疏矩阵乘算法[J]. 计算机工程与科学, 2024, 46(7): 1141-1150.
[9]	施禹, 董攀, 张利军. 一种不规则稀疏矩阵的SpMV方法[J]. 计算机工程与科学, 2024, 46(7): 1175-1184.
[10]	郭宸良, 阎少宏, 宗晨琪. 线云隐私攻击算法的并行加速研究[J]. 计算机工程与科学, 2024, 46(4): 615-625.
[11]	王宇华, 何俊飞, 张宇琪, 徐悦竹, 崔环宇. DRM:基于迭代归并策略的GPU并行SpMV存储格式[J]. 计算机工程与科学, 2024, 46(3): 381-394.
[12]	罗婧, 叶志晟, 杨泽华, 傅天豪, 魏雄, 汪小林, 罗英伟, . 研发类GPU集群任务数据集的构建及分析[J]. 计算机工程与科学, 2024, 46(12): 2128-2137.
[13]	毛润泽, 吴子恒, 徐嘉阳, 章严, 陈帜, . DeepFlame：基于深度学习和高性能计算的反应流模拟开源平台[J]. 计算机工程与科学, 2024, 46(11): 1901-1907.
[14]	朱文龙, 江嘉治, 黄聃, 肖侬. ParM:基于国产处理器的异构并行编程模型[J]. 计算机工程与科学, 2023, 45(9): 1521-1531.
[15]	李小玲, 方建滨, 马俊, 谭霜, 谭郁松. 基于监督学习的稀疏矩阵自动任务分配[J]. 计算机工程与科学, 2023, 45(5): 782-789.