基于CUDA编程模型的稀疏对角矩阵向量乘优化

J4 ›› 2012, Vol. 34 ›› Issue (7): 78-83.

基于CUDA编程模型的稀疏对角矩阵向量乘优化

秦晋，龚春叶，胡庆丰，刘杰

（国防科学技术大学计算机学院，湖南长沙 410073）

收稿日期:2010-05-26 修回日期:2010-08-20 出版日期:2012-07-25 发布日期:2012-07-25
基金资助:
国家自然科学基金资助项目（60673150，60970033）；国家863计划资助项目（2008AA01Z137）

Optimization of Sparse Diagonal MatrixVector Multiplication Based on the CUDA Program Model

QIN Jin,GONG Chunye,HU Qingfeng,LIU Jie

（School of Computer Science,National University of Defense Technology,Changsha 410073,China）

Received:2010-05-26 Revised:2010-08-20 Online:2012-07-25 Published:2012-07-25

摘要/Abstract

摘要：

稀疏矩阵向量乘是很多科学计算问题中的核心问题。本文针对稀疏对角矩阵，在DIA存储格式的基础上，设计了一种新型压缩存储格式CDIA，结合CUDA编程模型的特点，在计算线程上进行了细粒度的任务分配，同时为满足CUDA对存储器的合并访问要求，将压缩矩阵做了相应的转置处理，设计了细粒度算法与程序，并根据稀疏矩阵向量乘特点，做了相应的程序优化。实验数据显示，这种存储格式能够很好地发挥CUDA在数据处理方面的优势，在测试数据中，最高获得了单精度39.6 Gflop/s和双精度19.6 Gflop/s的浮点计算性能，性能在Nathan Bell和Michael Garland的基础上分别提高了7.6%和17.4%。

关键词: GPU, CDIA, CUDA, 稀疏矩阵向量乘

Abstract:

Sparse matrixvector multiplication is often an important computational kernel in many scientific applications. This paper faces the ndiagonal sparse matrix, uses the CUDA program model and describes a new compress format of sparse matrix based on the DIA compress format (CDIA), and gives each thread finegrained task distribution. In order to fulfill the characteristics of the align access of memory in CUDA, we transpose the compress matrix and design a finegrained algorithm and program and do some optimization to the program. In the data experiment, our best implementation achieves up to 39.6Gflop/s in singleprecision and 19.6Gflop/s in doubleprecision, and enhances the performance by about 7.6% and 17.4% that of Nathan Bell’s and Michael Garland’s respectively.

Key words: GPU;CDIA;CUDA;sparse matrixvector multiplication

秦晋，龚春叶，胡庆丰，刘杰. 基于CUDA编程模型的稀疏对角矩阵向量乘优化[J]. J4, 2012, 34(7): 78-83.

QIN Jin,GONG Chunye,HU Qingfeng,LIU Jie. Optimization of Sparse Diagonal MatrixVector Multiplication Based on the CUDA Program Model[J]. J4, 2012, 34(7): 78-83.

[1]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[2]	王宇华, 何俊飞, 张宇琪, 徐悦竹, 崔环宇. DRM:基于迭代归并策略的GPU并行SpMV存储格式[J]. 计算机工程与科学, 2024, 46(03): 381-394.
[3]	王鑫, 彭健. 基于HYB格式SpMV在新一代申威架构上的实现与优化[J]. 计算机工程与科学, 2023, 45(10): 1754-1762.
[4]	李小玲, 方建滨, 马俊, 谭霜, 谭郁松. 基于监督学习的稀疏矩阵自动任务分配[J]. 计算机工程与科学, 2023, 45(05): 782-789.
[5]	陈强, 谭林, 王云丽, 肖靖. 工业区块链中基于CUDA的数据并行处理方法[J]. 计算机工程与科学, 2022, 44(12): 2102-2110.
[6]	张勇, 张曦, 万云博, 何先耀, 赵钟, 卢宇彤. 非结构有限体积CFD计算的网格重排序优化[J]. 计算机工程与科学, 2022, 44(10): 1721-1729.
[7]	朱浩, 周博洋, 卢雪山, 杜溢墨. OpenCL计算软件栈评估[J]. 计算机工程与科学, 2021, 43(12): 2105-2114.
[8]	罗磊, 陈照云, 王俪璇. 用户QoS感知的GPU集群深度学习任务动态调度[J]. 计算机工程与科学, 2021, 43(08): 1331-1340.
[9]	龚昊, 刘莹, 冯建周, 赵仁良, 冷佳旭, . 基于GPU加速的脉冲多普勒雷达信号处理[J]. 计算机工程与科学, 2021, 43(07): 1141-1149.
[10]	孙兆鹏, 周宽久. 基于PCIe的高性能FPGA-GPU-CPU异构编程架构[J]. 计算机工程与科学, 2021, 43(04): 641-651.
[11]	魏金晖, 李晨, 鲁建壮. 多GPU系统虚实地址转换架构研究[J]. 计算机工程与科学, 2021, 43(02): 228-234.
[12]	张亮, 常旭, 秦志楷, 沈立. 量子线路模拟器QuEST在多GPU平台上的性能优化[J]. 计算机工程与科学, 2021, 43(01): 17-23.
[13]	李荣春，周鑫，潘衡岳，牛新，高蕾，窦勇. 基于GPU的并行Turbo乘积码译码器[J]. 计算机工程与科学, 2020, 42(05): 761-769.
[14]	徐频捷1,2，王诲喆1,2，李策3，唐丹1，赵地1. 基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现[J]. 计算机工程与科学, 2020, 42(03): 397-403.
[15]	左宪禹1,2，张哲1,5，黄祥志4,5，葛强1,2，张理涛3，臧文乾4,5. 一种适用于GPU图像处理算法的合并存储结构[J]. 计算机工程与科学, 2020, 42(02): 197-202.