计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (2): 228-237.
王军良,林宝洪,张娇,孙梦宇,潘永琛
WANG Junliang,LIN Baohong,ZHANG Jiao,SUN Mengyu,PAN Yongchen
摘要: 当前智算中心主要采用远程直接存取RDMA协议实现集群内部的超高性能通信,每对进程之间都需要建立基于可靠连接RC类型的队列对QP。在下一代大规模智算中心的AI大模型场景下,All-to-All和All Reduce这些分布式的集合通信操作会触发进程与进程间的全连接通信,基于RC的机制所需要维护的QP数量将突破百万,对RDMA网卡中有限的内存和性能带来极大挑战。为解决该问题,提出了高效可靠数据报ERD的RDMA QP通信机制,一方面通过可靠数据报RD来代替传统的RC,提高网卡的QP可扩展性;另一方面设计基于RD的可靠接收机制,在网络栈增加数据包丢包和快速有序处理,保证网络可靠性的同时提高传输性能。经过实验以及NS3仿真测试,ERD可以降低99.96%的QP数量,同时网络拥塞时传输性能可以提升15%以上。