计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (3): 400-411.
朱琦1,2,3,戴艺1,彭晋韬1,2,3,谢旻1,梁崇山1,刘鹏1,2,3,杨博1,刘杰1,2,3
ZHU Qi1,2,3,DAI Yi1,PENG Jintao1,2,3,XIE Min1,LIANG Chongshan1,LIU Peng1,2,3,YANG Bo1,LIU Jie1,2,3
摘要: Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限制,针对“天河二号”定制网络TH-Express聚合通信卸载特性,提出了基于GLEX NIC的Barrier加速和共享内存标志位重排列2种优化技术,有效减少了节点间同步开销,提高了节点内基于共享内存的同步效率。基于上述优化方法,重新设计了MPI_Barrier算法,并将其集成到MPI通信库中,并在国家超级计算长沙中心通过运行微基准测试程序和实际应用程序对所提优化方法进行性能测试,规模达到7 168个节点。实验结果表明,优化后的MPI_Barrier集合操作获得了1.3~14.5倍的加速,并在应用级真实负载评测中,性能提升高达54%。