基于运行数据分析的Spark任务参数优化

J4 ›› 2016, Vol. 38 ›› Issue (01): 11-19.

基于运行数据分析的Spark任务参数优化

陈侨安1，李峰1，曹越1，龙明盛1,2

(1.清华大学软件学院,北京 100084;2.清华大学信息科学与技术国家实验室（筹）,北京 100084)

收稿日期:2015-10-02 修回日期:2015-12-10 出版日期:2016-01-25 发布日期:2016-01-25
基金资助:
清华大学信息科学与技术国家实验室大数据科学与技术专项(面向领域的大数据应用系统开发与运行平台)

Parameter optimization for Spark jobs based
on runtime data analysis

CHEN Qiaoan1,LI Feng1,CAO Yue1,LONG Mingsheng1,2

(1.School of Software,Tsinghua University,Beijing 100084;2.National Laboratory for Information Science and Technology （TNList）,Tsinghua University,Beijing 100084,China)

Received:2015-10-02 Revised:2015-12-10 Online:2016-01-25 Published:2016-01-25

摘要/Abstract

摘要：

运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据，软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统，在运行过程中会产生大量的运行数据，包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估，若对系统了解不足，进行参数调优存在较大的困难。提出运行数据历史库的概念，历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型，并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。

关键词: 大数据, 运行数据, 数据分析, 参数优化, Spark

Abstract:

The fast growing runtime data is one of the most complicated and valuable data resources in big data systems. Based on runtime data, developers can analyze software quality and discover important information on software development model. As a distributed system, Spark generates a large amount of runtime data during running user applications. Those runtime data include log data, monitoring data and graph representation of jobs. Developers can optimize system parameters with the help of runtime data. However, there are different types of parameters in Spark and it is difficult to identify the effects of the parameters, which makes them hard to tune. In this paper we propose the concept of runtime data historical database and a parameters optimization model based on searching the database. Experimental results validate that the proposed optimization model achieves good performance on the recommendation of system parameters.

Key words: big data;runtime data;data analysis;parameters optimization;Spark

陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 2016, 38(01): 11-19.

CHEN Qiaoan1,LI Feng1,CAO Yue1,LONG Mingsheng1,2. Parameter optimization for Spark jobs based
on runtime data analysis [J]. J4, 2016, 38(01): 11-19.

编辑推荐

Metrics

阅读次数

全文

322

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	322

来源	本网站	其他网站

次数	253	69
比例	79%	21%

摘要

191

最新录用	在线预览	正式出版

0	0	191

	来源	本网站

	次数	191
	比例	100%

[1]	陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 20160101, 38(01): 11-19.
[2]	钟权, 陈志广, 高蓝光. EMRI-Tree：面向多分辨率可视化的层次式数据结构[J]. 计算机工程与科学, 2024, 46(05): 776-784.
[3]	王星苏, 熊文, 张瑞. 海量地铁乘客轨迹相似性连接方法：以深圳地铁为例[J]. 计算机工程与科学, 2023, 45(08): 1383-1392.
[4]	杨浩艺, 陈微, 姚泽欢, 谭郁松, 李非. 基于转录组学数据的抗真菌药物预测方法研究[J]. 计算机工程与科学, 2023, 45(02): 246-251.
[5]	胡艳芳, 熊文, 高炜. 基于 Spark 平台的网络游戏用户流失预测方法[J]. 计算机工程与科学, 2022, 44(10): 1730-1737.
[6]	葛旭冉, 刘洋, 陈志广, 肖侬. 基于MPI的并行大数据集生成器[J]. 计算机工程与科学, 2022, 44(07): 1152-1161.
[7]	刘世缘, 李云春, 陈晨, 杨海龙. 面向大数据存储的主动与被动相结合的性能评测方法体系结构与实现[J]. 计算机工程与科学, 2022, 44(04): 584-593.
[8]	杨柏蔼, 赵山, 刘芳. 无服务器计算技术研究综述[J]. 计算机工程与科学, 2022, 44(04): 611-619.
[9]	卞琛, 修位蓉, 于炯. 异构Spark集群数据倾斜修正调度策略[J]. 计算机工程与科学, 2022, 44(04): 620-630.
[10]	吕高锋, 王玉鹏, 杨鎔嘉, 唐竹. 基于聚合的FlowRadar网络数据采集加速模型设计[J]. 计算机工程与科学, 2022, 44(02): 220-226.
[11]	张元鸣, 虞家睿, 陆佳炜, 高飞, 肖刚. 基于Spark Streaming的视频大数据并行处理方法[J]. 计算机工程与科学, 2021, 43(10): 1736-1743.
[12]	李静, 莫思敏 . 基于改进遗传算法的深度神经网络优化研究[J]. 计算机工程与科学, 2021, 43(08): 1503-1511.
[13]	黄山, 房六一, 徐浩桐, 段晓东, . 面向容器环境的Flink的任务调度优化研究[J]. 计算机工程与科学, 2021, 43(07): 1173-1184.
[14]	刘亚波, 吴秋轩. 基于长短时记忆网络的电商大数据同一性标定[J]. 计算机工程与科学, 2021, 43(03): 407-415.
[15]	李琼, 宋振龙, 袁远, 谢徐超. 一种基于NVMeoF存储池的分域共享并发存储架构[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1711-1719.