计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (5): 775-786.
李俊哲1,2,付振新2,3,杨宏辉2,马银萍2,3,李若淼2,3,樊春2,3
LI Junzhe1,2,FU Zhenxin2,3,YANG Honghui2,MA Yinping2,3,LI Ruomiao2,3,FAN Chun2,3
摘要: 在算力网络的建设中,如何在不同地域算力中心的集群之间进行高效可靠的数据迁移,是影响算力网络建设成功与否的关键研究课题。鉴于此,设计并实现了基于RSYNC的高性能传输软件SCOW-SYNC。首先,SCOW-SYNC采用队列和线程池架构,对传统的RSYNC进行了优化,通过并行建立多个TCP连接和并行传输,提高了带宽利用率。此外,SCOW-SYNC还支持大文件自动切分、动态压缩、后台运行、进度实时查询和SSH连接池管理等功能。经测试,SCOW-SYNC相比RSYNC能够达到125%~130%的加速比。其次,为了提高传输的安全性,面向算力中心提出了一套可靠的跨集群传输系统架构,数据传输仅在“传输节点”之间发起,使用“传输密钥”进行加密,该密钥由“管理节点”负责动态检查、生成和分发。最后,将SCOW-SYNC集成到高性能计算门户和管理平台SCOW中,实现了SCOW的跨集群传输模块,使得用户可以通过浏览器在不同集群之间进行高性能的数据迁移,并通过容器化技术部署到了北京大学跨集群环境中,提高了生产效率。