模板操作在GPU上的实现与优化

doi:10.3969/j.issn.1007130X.2011.

J4 ›› 2011, Vol. 33 ›› Issue (3): 41-45.doi: 10.3969/j.issn.1007130X.2011.

模板操作在GPU上的实现与优化

方旭东,唐玉华,王桂彬,唐滔

（国防科学技术大学计算机学院，湖南长沙 410073）

收稿日期:2009-07-26 修回日期:2009-10-21 出版日期:2011-03-25 发布日期:2011-03-25
作者简介:方旭东(1985)，男,浙江诸暨人，硕士生，研究方向为计算机系统软件。方旭东(1985)，男,浙江诸暨人，硕士生，研究方向为计算机系统软件。王桂彬(1981),男，博士生，研究方向为计算机系统结构。唐滔(1984),男，博士生，研究方向为计算机系统结构。
基金资助:
国家自然科学基金资助项目（60621003）

Implementation and Optimization of Stencil Applications on GPUs

FANG Xudong,TANG Yuhua,WANG Guibin,TANG Tao

（School of Computer Science,National University of Defense Technology,Changsha 410073,China）

Received:2009-07-26 Revised:2009-10-21 Online:2011-03-25 Published:2011-03-25

摘要/Abstract

摘要：

随着GPU的快速发展，使用GPU来加速科学计算应用已成为必然趋势。本文抽取了SPEC2000中富含模板操作的Mgrid的两个典型子程序Rprj3和Interp，使用Brook+语言把它们移植到AMD GPU上运行。采用Brook+语言提供的线程调节机制，我们实现了不同线程粒度下的程序版本，并分析了加速比不同的原因，总结了线程粒度调节对模板程序移植的指导意义。我们使用AMD Radeon HD4870 GPU作为实验平台，对比Intel Xeon E5405 CPU上的运行结果发现，在最大规模下，Rprj3获得的相对于CPU版本的加速比为5.37×, Interp获得的相对于CPU版本的加速比为12.8×。

关键词: GPU, 优化, 模板

Abstract:

With the fast development of GPUs, using them to accelerate scientific computing applications is becoming an inevitable trend. In this paper, we port two typical subroutines Rprj3 and Interp from Mgrid which contains rich stencil operations in SPEC2000 to run on an AMD GPU using Brook+. Using a thread granularity tuning mechanism provided by Brook+, we implement different ported program versions and analyze their performances. We also conclude how to utilize thread granularity tuning to optimize stencil program transplantation. Our experimental results show that under the largest problem size, Rprj3 obtains a speedup of 5.37 over its CPU version while Interp gains a speedup of 12.8 over its CPU version.

Key words: GPU;optimization;stencil

方旭东,唐玉华,王桂彬,唐滔. 模板操作在GPU上的实现与优化[J]. J4, 2011, 33(3): 41-45.

FANG Xudong,TANG Yuhua,WANG Guibin,TANG Tao. Implementation and Optimization of Stencil Applications on GPUs[J]. J4, 2011, 33(3): 41-45.

[1]	陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 20160101, 38(01): 11-19.
[2]	周兰凤1，赵鹏飞1，彭俊杰2. 基于云环境下一种小文件传输策略研究[J]. J4, 20160101, 38(01): 20-27.
[3]	杨春苗, 王杨, 韩力英, 孙赫彬. 基于生成对抗网络的跨模态图像情感感知描述[J]. 计算机工程与科学, 2025, 47(05): 894-901.
[4]	陈文锦. QTorch:基于独立的量子程序设计语言的量子-经典混合机器学习框架[J]. 计算机工程与科学, 2025, 47(03): 412-421.
[5]	田茜, 李暾, 程悦, 皮彦, 邹鸿基. GPU上基于环展开的RTL模拟加速技术研究[J]. 计算机工程与科学, 2025, 47(02): 191-199.
[6]	沈洁, 龙标, 黄春, 唐滔, 彭林. 面向向量部件的指数和对数函数优化方法[J]. 计算机工程与科学, 2025, 47(01): 18-26.
[7]	章政, 夏小云, 陈泽丰, 向毅. 融合强化学习的分阶段策略求解旅行背包问题[J]. 计算机工程与科学, 2025, 47(01): 140-149.
[8]	高纪元, 刘杰, 陈昌盛, 李伟, 刘影, 杨靖, . 混合策略改进的蜣螂优化算法[J]. 计算机工程与科学, 2025, 47(01): 171-179.
[9]	陈小文, 芮志超, 朱麒瑾, 董羽, 孟宇, . 高精度两步分支混合CORDIC算法设计及FPGA实现[J]. 计算机工程与科学, 2024, 46(12): 2099-2108.
[10]	王强, 孙彦洁, 齐星云, 徐佳庆. Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用#br#[J]. 计算机工程与科学, 2024, 46(12): 2117-2127.
[11]	罗婧, 叶志晟, 杨泽华, 傅天豪, 魏雄, 汪小林, 罗英伟, . 研发类GPU集群任务数据集的构建及分析[J]. 计算机工程与科学, 2024, 46(12): 2128-2137.
[12]	沈凡凡, 汤星译, 张军, 徐超, 陈勇, 何炎祥. 基于改进萤火虫算法和长短期记忆网络的恶意行为检测方法[J]. 计算机工程与科学, 2024, 46(12): 2158-2170.
[13]	徐淑萍, 卫浩波, 孙洋洋, 万亚娟. 基于模板更新和重检测的长时目标跟踪研究[J]. 计算机工程与科学, 2024, 46(12): 2196-2204.
[14]	毛润泽, 吴子恒, 徐嘉阳, 章严, 陈帜, . DeepFlame：基于深度学习和高性能计算的反应流模拟开源平台[J]. 计算机工程与科学, 2024, 46(11): 1901-1907.
[15]	申晓宁, 徐继勇, 毛鸣健, 陈文言, 宋丽妍, . 基于双指标分组学习粒子群算法的动态敏捷软件项目调度[J]. 计算机工程与科学, 2024, 46(10): 1793-1806.

模板操作在GPU上的实现与优化

Implementation and Optimization of Stencil Applications on GPUs

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价