计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (04): 584-593.
刘世缘1,李云春1,2,陈晨2,杨海龙1
LIU Shi-yuan1,LI Yun-chun1,2,CHEN Chen2,YANG Hai-long1
摘要: 随着数据量的日益增加,大数据存储在整个大数据应用框架体系中居于重要地位。对大数据存储系统进行性能评测可以指导大数据应用开发人员分析性能瓶颈,进行大数据系统的性能优化。在以往的工作中,通常使用基准测试的方式来对不同大数据框架进行性能评测,或者采用插桩并分析轨迹文件的方式对分布式文件系统进行性能分析。这2种方法采用的分析角度不同,并没有形成合理的评测体系来评价大数据分布式存储系统。本文提出主动与被动相结合的大数据存储系统性能评测方法体系结构及其具体实现。在主动性能评测方法方面,提供了6个领域,超过20个应用的基准测试程序,对大数据存储系统主动发起性能测试,分析大数据存储系统的基准性能指标;在被动性能评测方法方面,提供了对低效任务、低效算子、低效函数的分析及定位方法,通过分析运行在大数据存储系统之上的大数据应用,分析大数据应用程序低效的原因。通过实验表明,该大数据性能评测方法体系结构能够全面地对大数据存储系统进行性能评测。