快速多极子方法在申威众核处理器上的实现和优化

计算机工程与科学

快速多极子方法在申威众核处理器上的实现和优化

王武1，王舒扬1,2，姜金荣1,孟虹松3

（1.中国科学院计算机网络信息中心,北京 100190;2.中国科学院大学，北京 100049；

3.国家超级计算无锡中心,江苏无锡 214072）

收稿日期:2018-10-25 修回日期:2018-12-10 出版日期:2019-07-25 发布日期:2019-07-25
基金资助:
国家重点研发计划（2017YFB0203303）；中国科学院十三五信息化应用工程项目（XXH13506-405）

Implementation and optimization of fast multipole

method on Sunway manycore processors

WANG Wu1，WANG Shuyang1,2，JIANG Jinrong1,MENG Hongsong3

（1.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190;

2.University of Chinese Academy of Sciences,Beijing 100049;

3.National Supercomputing Center in Wuxi,Wuxi 214072,China）

Received:2018-10-25 Revised:2018-12-10 Online:2019-07-25 Published:2019-07-25

摘要/Abstract

摘要：

快速多极子方法（FMM）是一种求解N体问题的快速高效数值算法，在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器，含260核心（4核组）。基于申威SW26010的众核架构设计和实现了快速多极子方法，并对核心函数（尤其是最耗时的粒子对相互作用）系统地进行了性能优化，包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例，优化后代码的计算速度约为主核上运行的原始代码的400倍，每个核组上的浮点性能达到250 GFLOPS，即理论峰值性能的32.5%。

关键词: 快速多极子方法, 异构众核处理器, N体问题, 性能优化

Abstract:

The fast multipole method (FMM) is a fast and efficient numerical algorithm for solving the Nbody problem and has various applications in cosmology and molecular dynamics. Sunway SW26010 is a heterogeneous manycore processor developed independently by China with 260 cores (4 core groups). We design and implement an FMM on SW26010 manycore architecture. We also systematically optimize the performance of kernel functions (especially for the most timeconsuming particle pair interaction), including asynchronous direct memory access (DMA), SIMD vectorization, loop unrolling and inline assembly tuning. Taking the particle pair interaction kernel as an example, the computational speed after optimization is about 400 times higher than the raw code running on the host core, and the floating-point performance on each core group is 250 GFLOPS, which is 32.5% of the theoretical peak performance.

Key words: fast multipole method (FMM), heterogeneous manycore processor, N-body problem, performance optimization

王武1，王舒扬1,2，姜金荣1,孟虹松3. 快速多极子方法在申威众核处理器上的实现和优化[J]. 计算机工程与科学.

WANG Wu1，WANG Shuyang1,2，JIANG Jinrong1,MENG Hongsong3.

Implementation and optimization of fast multipole

method on Sunway manycore processors

[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

307

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	307	0	0

来源	本网站	其他网站

次数	234	73
比例	76%	24%

摘要

245

最新录用	在线预览	正式出版

245	0	0

	来源	本网站

	次数	245
	比例	100%

[1]	施禹, 董攀, 张利军. 一种不规则稀疏矩阵的SpMV方法[J]. 计算机工程与科学, 2024, 46(07): 1175-1184.
[2]	李飞, 郭绍忠, 周蓓, 宋广辉, 郝江伟, 许瑾晨. RISC-V基础数学库性能优化[J]. 计算机工程与科学, 2023, 45(09): 1532-1543.
[3]	康宇晗, 时洋, 陈照云, 文梅. 面向迈创+MatrixZone异构系统的深度学习编程框架[J]. 计算机工程与科学, 2023, 45(07): 1149-1158.
[4]	莫舒恒, 卢圣有, 黄聃, 卢宇彤. 基于即时编译的GNU Octave性能优化[J]. 计算机工程与科学, 2022, 44(12): 2091-2101.
[5]	沈佳杰, 卢修文, 向望, 赵泽宇, 王新, . 分布式存储系统读写一致性算法性能优化研究综述[J]. 计算机工程与科学, 2022, 44(04): 571-583.
[6]	张驭洲, 曹武迪, 卜景德, 谭光明, 吉青. GROMACS 2020在ROCm平台上的移植与优化[J]. 计算机工程与科学, 2021, 43(11): 1901-1909.
[7]	周静, 关玉蓉. 基于SDN的DWSN技术分析及性能优化研究[J]. 计算机工程与科学, 2021, 43(08): 1413-1421.
[8]	朱良杰, 沈佳杰, 周扬帆, 王新, . 云际存储系统性能优化研究现状与展望[J]. 计算机工程与科学, 2021, 43(05): 761-772.
[9]	徐海坤, 匡邓晖, 刘杰, 龚春叶, . 基于RMC的蒙特卡罗程序性能优化[J]. 计算机工程与科学, 2021, 43(04): 634-640.
[10]	曹立强,罗红兵. 并行科学计算应用中采样数据的聚集I/O[J]. 计算机工程与科学, 2018, 40(09): 1534-1539.
[11]	廖旺坚1,2,黄永峰1,2,包从开1,2. Spark并行计算框架的内存优化[J]. 计算机工程与科学, 2018, 40(04): 587-593.
[12]	李帅1，吴斌2，杜修明3，陈玉峰3. 基于Spark的BIRCH算法并行化的设计与实现[J]. 计算机工程与科学, 2017, 39(01): 35-41.
[13]	李鑫1, 3，郭晓威1，林宇斐2. 数据流Eager传输：一种分布式流体系结构中的性能优化技术[J]. J4, 2015, 37(11): 2035-2044.
[14]	陆平静，李宝，易任娇，张英，王绍刚，庞征斌. 一种基于改进模拟退火算法的程序性能优化参数搜索算法[J]. J4, 2015, 37(07): 1227-1232.
[15]	熊敏，王勇献. 面向CPU+MIC混合异构平台的地震波叠前时间偏移算法并行与优化策略[J]. J4, 2015, 37(01): 14-22.