计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (05): 799-806.
陈云1,2,王梦园1,2,柴晓楠1,2,商建东1,2
CHEN Yun1,2,WANG Meng-yuan1,2,CHAI Xiao-nan1,2,SHANG Jian-dong1,2
摘要: 国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用,对面向该平台的高性能图像处理算法提出了强烈需求。高斯滤波作为图像处理的基础算法,能有效滤除图像中的高斯噪声,在图像处理领域具有广泛应用。针对飞腾高性能DSP的体系结构特点与高斯滤波算法特性,实现了面向飞腾高性能DSP的高斯滤波算法优化。通过手工向量化、控制流消除和循环展开等优化手段充分利用数据级与指令级并行性,从而减少数据访存次数,提高指令执行效率。针对FT-MT2内核中的DMA硬件及向量存储器结构特点,进行了“乒-乓”缓存、DMA数组转置等优化,以减少数据传输时间,提高数据局部性。多种滤波核大小及图像矩阵规模下的测试结果表明,相对于高斯滤波算法的串行实现,该并行优化实现获得了1.3~1.41倍的加速比。在开启Cache的情况下,相较于dsplib库中高斯滤波算法在TMS320C6678平台上的运行性能,获得了1.15~1.71倍的加速效果。