计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (04): 594-604.
程稳1,李焱2,曾令仿3,王芳1,唐士程2,杨力平2,冯丹1,曾文君2
CHENG Wen1,LI Yan2,ZENG Ling-fang3,WANG Fang1,TANG Shi-cheng2,YANG Li-ping2,FENG Dan1,ZENG Wen-jun2
摘要: 在科学计算、大数据处理和人工智能等领域,对相关应用负载进行研究,分析负载I/O模式,揭示应用负载变迁规律等,对指导集群存储系统性能优化十分重要。当前应用种类繁多并且应用快速迭代更新,复杂的环境使得对应用负载的特性挖掘充满挑战。针对以上问题,在生产环境中收集了5个Lustre集群存储共计326天的应用日志信息,对应用负载的访问、负载特性进行了深入的探究与分析,并对已有观察进行了验证和补充。通过对应用日志信息横向、纵向和多维度对比分析与信息挖掘,总结了4个发现,并研究相关发现与以往工作的关联性,结合实际生产环境,给出了相应的系统优化策略与切实可行的实施方案,为用户、维护人员、上层应用开发者和多层存储系统设计等人员提供了相关参考与建议。同时,针对实际应用环境复杂、系统优化工作耗时费力等问题,设计并实现了一种系统自动优化框架(SAOF),SAOF可为指定应用负载提供资源预留、带宽限定等功能,初步测试表明,SAOF能根据系统资源与任务负载需求为不同任务提供自动化的QoS保障。