计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (04): 662-669.
赵永浩1,2,贾海鹏2,张云泉2,张思佳1
ZHAO Yong-hao1,2,JIA Hai-peng2,ZHANG Yun-quan2,ZHANG Si-jia1#br# #br#
摘要: 在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用。随着ARM架构处理器得到广泛的使用,研究ARM架构下的函数快速算法实现变得更加关键。当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景。因此,对平方根函数进行了高性能的实现与优化。通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过SIMD优化进一步提升了算法性能。实验结果表明,在满足精度的前提下,相比于libm算法库,实现的平方根函数的,性能提高了约7倍,相比于ARM V8提供的计算平方根的指令在性能上提高了约3倍。