• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学

• 论文 • 上一篇    下一篇

面向国产异构系统的HPL异构协同设计

甘新标1,2,孙燎原3,刘杰1,雄成伟1,黄嘉昆1   

  1. (1.国防科技大学计算机学院,湖南 长沙 410073;2.计算机软件新技术国家重点实验室(南京大学),江苏 南京 210093;
    3.国防科技大学量子信息研究所兼高性能计算国家重点实验室,湖南 长沙 410073)
  • 收稿日期:2016-12-12 修回日期:2017-02-15 出版日期:2018-01-25 发布日期:2018-01-25
  • 基金资助:

    国家重点研发计划(2017YFB0202104);国家自然科学基金(61602495,61402039,11401580,11665012);计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25);国防科技大学预研计划(ZK16-03-06);国家重点实验室专项基金(Y62612A87S);中国科学院光谱成像技术重点实验室开放基金(LIST201602D)

Orchestrating HPL between CPU and China accelerator

GAN Xin-biao1,2,SUN Liao-yuan3,LIU Jie1,XIONG Cheng-wei1,HUANG Jia-kun1   

  1. (1.College of Computer,National University of Defense Technology,Changsha 410073;
    2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093;
    3.Institute of Quantum Information & State Key Laboratory of High Performance Computing,
    National University of Defense Technology,Changsha 410073,China)
  • Received:2016-12-12 Revised:2017-02-15 Online:2018-01-25 Published:2018-01-25

摘要:

HPL是高性能计算广泛采用的Linpack 测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU + China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。
 

关键词: HPL, 国产加速器, 矩阵分布细致划分与封装, 异构协同矩阵乘调度

Abstract:

HPL is a Linpack benchmark package widely used in high performance computing test. Matrix is divided into sub-matrix and distributed into computing elements in traditional HPL algorithm. However, it is ineffective for China Accelerator because of a specified interface on matrix multiplication built in China Accelerator. Thus, dPEM (delicate Partition and Encapsulation on Matrix) is advised to expose a friendly testing configuration environment. Furthermore, we propose OA4MM (Orchestrating Algorithm for Matrix multiplication) based on heterogeneous system composed of CPU and China Accelerator. Experimental results validate dPEM and OA4MM on CPU + China Accelerator. OA4MM can promote productivity up to 10% in comparison to heterogeneous HPL.

Key words: HPL, China accelerator, delicate partition and encapsulation on matrix, orchestrating algorithm for matrix multiplication