面向FT1000微处理器的STREAM并行计算与优化

J4 ›› 2014, Vol. 36 ›› Issue (12): 2267-2271.

面向FT1000微处理器的STREAM并行计算与优化

迟利华，胡庆丰，刘杰，甘新标，蒋杰，晏益慧

(国防科学技术大学并行与分布处理重点实验室，湖南长沙 410073)

收稿日期:2013-12-10 修回日期:2014-02-21 出版日期:2014-12-25 发布日期:2014-12-25
基金资助:
国家863计划资助项目（2012AA01A301）；国家自然科学基金资助项目（60970033,91430218）

Parallel computation and performance optimization
of STREAM on FT1000 processors

CHI Lihua，HU Qingfeng，LIU Jie，GAN Xinbiao，JIANG Jie，YAN Yihui

(National Key Laboratory of Parallel and Distributed Processing,
National University of Defense Technology,Changsha 410073,China)

Received:2013-12-10 Revised:2014-02-21 Online:2014-12-25 Published:2014-12-25

摘要/Abstract

摘要：

STREAM是微处理器上内存性能的基准测试程序，在多核多线程FT1000微处理器上发挥高性能是具有挑战性的研究工作。基于多级Cache结构，优化STREAM四个程序的指令流水线，根据寄存器数，设计了多级循环展开方法，根据指令延迟和Cache行的大小确定数据预取的数目，使用汇编语言编写了优化子程序。基于OpenMP并行环境，设计了STREAM并行程序，优化了局部化数据分配方式。数据测试结果表明，优化后的STREAM的性能比原始串行程序性能提高了19.2%~64.2%。优化后，并行程序的最高访存性能达到8.5 GB/s，对比优化前的最高访存性能最大提高了22.7%。

关键词: 多线程微处理器, STREAM测试程序, 性能优化

Abstract:

STREAM benchmark measures the memory bandwidth of microprocessors.It is a challenge to get high performance of STREAM benchmark on the massively multithreaded FT1000 processors.Based on the hierarchical cache,the instruction pipelines of four routines of STREAM are optimized.Then,a multilevel loop unrolling method is proposed according to the number of registers,the prefetched data sizes are determined by the instruction delay and the cache line size,and the optimized subroutines are written in assembly language.Under the OpenMP parallel computing environment, the parallel codes for STREAM benchmark are given with the local data optimized methods.The test results of STREAM codes with performance optimization show that the performance increases by 19.2~64.2% for sequential computation.The highest memory bandwidth of the parallel optimized codes is 8.5GB/s. In comparison to the original parallel codes,the performances of the parallel optimized codes is improved by 22.7% .

Key words: multithreaded processor；STREAM benchmark；performance optimization

迟利华，胡庆丰，刘杰，甘新标，蒋杰，晏益慧. 面向FT1000微处理器的STREAM并行计算与优化[J]. J4, 2014, 36(12): 2267-2271.

CHI Lihua，HU Qingfeng，LIU Jie，GAN Xinbiao，JIANG Jie，YAN Yihui. Parallel computation and performance optimization
of STREAM on FT1000 processors [J]. J4, 2014, 36(12): 2267-2271.

编辑推荐

Metrics

阅读次数

全文

254

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	254

来源	本网站	其他网站

次数	211	43
比例	83%	17%

摘要

130

最新录用	在线预览	正式出版

0	0	130

	来源	本网站

	次数	130
	比例	100%

[1]	施禹, 董攀, 张利军. 一种不规则稀疏矩阵的SpMV方法[J]. 计算机工程与科学, 2024, 46(07): 1175-1184.
[2]	李飞, 郭绍忠, 周蓓, 宋广辉, 郝江伟, 许瑾晨. RISC-V基础数学库性能优化[J]. 计算机工程与科学, 2023, 45(09): 1532-1543.
[3]	康宇晗, 时洋, 陈照云, 文梅. 面向迈创+MatrixZone异构系统的深度学习编程框架[J]. 计算机工程与科学, 2023, 45(07): 1149-1158.
[4]	莫舒恒, 卢圣有, 黄聃, 卢宇彤. 基于即时编译的GNU Octave性能优化[J]. 计算机工程与科学, 2022, 44(12): 2091-2101.
[5]	沈佳杰, 卢修文, 向望, 赵泽宇, 王新, . 分布式存储系统读写一致性算法性能优化研究综述[J]. 计算机工程与科学, 2022, 44(04): 571-583.
[6]	张驭洲, 曹武迪, 卜景德, 谭光明, 吉青. GROMACS 2020在ROCm平台上的移植与优化[J]. 计算机工程与科学, 2021, 43(11): 1901-1909.
[7]	周静, 关玉蓉. 基于SDN的DWSN技术分析及性能优化研究[J]. 计算机工程与科学, 2021, 43(08): 1413-1421.
[8]	朱良杰, 沈佳杰, 周扬帆, 王新, . 云际存储系统性能优化研究现状与展望[J]. 计算机工程与科学, 2021, 43(05): 761-772.
[9]	徐海坤, 匡邓晖, 刘杰, 龚春叶, . 基于RMC的蒙特卡罗程序性能优化[J]. 计算机工程与科学, 2021, 43(04): 634-640.
[10]	王武1，王舒扬1,2，姜金荣1,孟虹松3. 快速多极子方法在申威众核处理器上的实现和优化[J]. 计算机工程与科学, 2019, 41(07): 1161-1167.
[11]	曹立强,罗红兵. 并行科学计算应用中采样数据的聚集I/O[J]. 计算机工程与科学, 2018, 40(09): 1534-1539.
[12]	廖旺坚1,2,黄永峰1,2,包从开1,2. Spark并行计算框架的内存优化[J]. 计算机工程与科学, 2018, 40(04): 587-593.
[13]	李帅1，吴斌2，杜修明3，陈玉峰3. 基于Spark的BIRCH算法并行化的设计与实现[J]. 计算机工程与科学, 2017, 39(01): 35-41.
[14]	李鑫1, 3，郭晓威1，林宇斐2. 数据流Eager传输：一种分布式流体系结构中的性能优化技术[J]. J4, 2015, 37(11): 2035-2044.
[15]	陆平静，李宝，易任娇，张英，王绍刚，庞征斌. 一种基于改进模拟退火算法的程序性能优化参数搜索算法[J]. J4, 2015, 37(07): 1227-1232.