计算机工程与科学 ›› 2020, Vol. 42 ›› Issue (10高性能专刊): 1711-1719.
李琼,宋振龙,袁远,谢徐超
LI Qiong,SONG Zhen-long,YUAN Yuan,XIE Xu-chao
摘要: E级计算和大数据时代,为了充分利用超级计算机系统的并行计算能力,许多大数据应用程序在高性能计算HPC系统上运行,超级计算机的I/O模式更趋复杂,I/O瓶颈问题日益严峻。当前基于闪存的存储阵列或存储服务器已逐步应用在高性能计算机的并行存储系统中,但传统存储体系结构、I/O协议软件栈和存储网络的较高延迟使得新型存储介质不能发挥性能优势,存储系统依然存在I/O访问延迟高、并发I/O吞吐率和瞬发I/O(Burst I/O)带宽受限的问题。针对上述问题和技术挑战,提出了一种基于非易失存储介质
NVM的分域共享并发存储架构,设计了一种支持NVMeoF网络存储的Burst I/O缓冲存储池NV-BSP,实现了虚拟化存储池资源管理、基于天河高速互连网的NVMeoF网络存储通信等关键技术,具有横向和纵向扩展能力,可有效支持面向特定计算任务的Burst I/O加速和低延迟远程存储访问。基于HPC和大数据应用程序混合运行性能分析模型,提出了一种混合应用程序QoS控制策略。小规模验证系统上的性能测评结果表明:NV-BSP存储池的读写性能可随并发I/O处理线程数良好扩展;与Linux 操作系统自带的MD-RAID相比具有明显的性能优势;相比本地I/O访问,基于天河互连网络的NVMeoF远程存储读写延迟仅增加了59.25 μs和54.03 μs。通过计算与存储分离,NV-BSP 在提供堪比本地存储池性能的同时,提高了系统存储资源动态调配的灵活性和系统可靠性。