摘要:
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。
杜琦,姜浩,李宽,彭林,杨灿群. 面向ARMv8 64位多核处理器QTRSM的实现[J]. 计算机工程与科学.
DU Qi,JIANG Hao,LI Kuan,PENG Lin,YANG Can-qun. QTRSM on ARMv8 64-bit multi-core processor[J]. Computer Engineering & Science.