计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (09): 1521-1531.
YANG Bin1,2,WANG Jing-yu3,LIU Shi-chao1,2,SHAO Ming-shan1,2,XIAO Wei3,Chen Qi3,4,HE Xiao-bin3,LIU Wei-guo1,2,XUE Wei2,4
YANG Bin1,2,WANG Jing-yu3,LIU Shi-chao1,2,SHAO Ming-shan1,2,XIAO Wei3,Chen Qi3,4,HE Xiao-bin3,LIU Wei-guo1,2,XUE Wei2,4
摘要: 随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统——Beacon+。该系统无需修改应用代码/脚本即可对每个应用的数据访问过程进行全路径实时监控与分析。通过在线+离线的压缩方法和分布式缓存/存储等机制,Beacon+在保证系统本身高扩展性、低开销的同时还可以持续稳定地提供I/O诊断服务。以神威新一代超级计算机为部署平台,通过I/O标准测试应用和实际应用证明了Beacon+的低开销和高准确性,以及I/O诊断的高效性。