摘要:
关于Spark性能的研究目前正在成为热点,但调优策略多位于应用层,而不是系统层。操作系统作为硬件之上的第一层软件,对硬件性能发挥起着根本作用。Linux内核提供了丰富的参数作为优化性能的接口,但实际中,这些参数的作用并没有得到充分发挥。人们更多是采用系统默认值,而不是根据具体环境进行调整。然而本文实验发现,系统默认值并不一定是最好的选择,有时甚至是最坏的。定义了“影响比”这一概念,并基于此概念提出了一种通过分析内核函数的执行情况来认识参数对Spark应用影响的方法。针对Spark内存计算的特点,从大页、NUMA这两个与使用内存紧密相关的方面分析了相关内核参数对几种典型Spark负载的性能影响,并由此得出一些结论。希望本文的分析和结论可以为Spark平台合理设置内核参数提供一些参考。
王利1,2,王晶1,2,张伟功2,3,邱柯妮2,3,陆克中4. Linux内核参数对Spark负载性能影响的研究[J]. 计算机工程与科学.
WANG Li1,2,WANG Jing1,2,ZHANG Wei-gong2,3,QIU Ke-ni2,3,LU Ke-zhong4. Impact of Linux kernel parameters on Spark workloads[J]. Computer Engineering & Science.