计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (09): 1529-1538.
李胜国1,廖霞2,于恒彪1,黄春1,姜浩1,逯喜燕1,王华林3,成礼智3
LI Sheng-guo1,LIAO Xia2,YU Heng-biao1,HUANG Chun1,JIANG Hao1,LU Xi-yan1,WANG Hua-lin3,CHENG Li-zhi3
摘要: 摘要:结构矩阵在科学计算和工程应用中具有重要作用,例如Cauchy、Toeplitz、Vandermonde和Hankel矩阵等。虽然这些矩阵都是稠密的,但只需要O(n)个参数(生成元)就可以表示,其中n为矩阵的维数。提出了面向结构矩阵的可扩展并行矩阵乘算法框架,利用矩阵生成元显式地构造各进程的局部矩阵块,从而减少通信开销;同时利用矩阵块的数值低秩性,进一步降低计算开销。因此,该算法框架可同时降低计算量和通信量,适用于Cannon、Fox和PUMMA等矩阵乘算法。在天河2巨型机上进行了大量的数值测试,测试结果表明,该算法可获得相对ScaLAPACK中的PDGEMM函数的8.96倍加速。