基于Spark框架的乘潮水位计算与可视化平台

J4 ›› 2015, Vol. 37 ›› Issue (12): 2216-2221.

基于Spark框架的乘潮水位计算与可视化平台

秦勃1，朱勇1，秦雪2

(1.中国海洋大学信息科学与工程学院,山东青岛 266100;2.国家海洋信息中心,天津 300171)

收稿日期:2015-08-20 修回日期:2015-10-26 出版日期:2015-12-25 发布日期:2015-12-25
基金资助:
海洋公益性行业科研专项经费资助项目(201105033)

Tide-bound water level computing and
visualization platform based on Spark

QIN Bo1，ZHU Yong1，QIN Xue2

(1.College of Information Science and Engineering,Ocean University of China,Qingdao 266100;2.National Marine Data & Information Service,Tianjin 300171,China)

Received:2015-08-20 Revised:2015-10-26 Online:2015-12-25 Published:2015-12-25

摘要/Abstract

摘要：

乘潮水位计算是海洋环境信息处理的重要组成部分，具有计算量大、计算复杂度高、计算时间长等特性。采用传统集群计算模式实现乘潮水位计算业务，存在计算成本高、计算伸缩性和交互性差的问题。针对以上问题，提出一种基于Spark框架的乘潮水位计算和可视化平台。结合对Spark任务调度算法的研究，设计和实现了一种基于节点计算能力的任务调度算法，实现了长时间序列的多任务乘潮水位数据的检索、获取、数值计算、特征可视化的并行处理，达到了海量海洋环境数据计算和可视化处理的目的。实验结果表明，提出的基于Spark的乘潮水位计算和可视化平台可以有效地提高海量乘潮水位数据的分布式并行处理的效率，为更加快速和高效的乘潮水位计算提供了一种新的方法。

关键词: Spark, 乘潮水位, 任务调度算法, 并行处理, 海洋环境信息

Abstract:

Tidebound water level computing is an important part of ocean environment information processing, which features huge amount of data, high complexity, and prolonged computing time. The traditional computing model implemented by HPC has a number of problems, such as high computation cost, poor scalability and interactivity. Aiming at all these problems, we propose an interactive computing and visualization platform based on the Spark scheduling algorithm. We design a computing capacity scheduling algorithm, realize the parallel processing of largescale tidebound water level data, such as data retrieval, data extraction, numerical calculation, featurebased visualization, and achieve the purpose of parallel processing and visualization of largescale ocean environmental data on Spark. Experimental results show that the computing and visualization platform based on Spark can improve the traditional computing model, lessen the dependence of tidal level calculation on high performance cluster and reduce computation cost. In addition, the newlydeveloped task scheduling algorithm can make task allocation more rational and scientific, and therefore further enhance its efficiency. In conclusion, the proposed platform provides a new method for tidebound water level computing.

Key words: Spark, tide-bound water level;task scheduling algorithm;parallel processing;ocean environmental information

秦勃1，朱勇1，秦雪2. 基于Spark框架的乘潮水位计算与可视化平台[J]. J4, 2015, 37(12): 2216-2221.

QIN Bo1，ZHU Yong1，QIN Xue2. Tide-bound water level computing and
visualization platform based on Spark [J]. J4, 2015, 37(12): 2216-2221.

[1]	陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 20160101, 38(01): 11-19.
[2]	王星苏, 熊文, 张瑞. 海量地铁乘客轨迹相似性连接方法：以深圳地铁为例[J]. 计算机工程与科学, 2023, 45(08): 1383-1392.
[3]	胡艳芳, 熊文, 高炜. 基于 Spark 平台的网络游戏用户流失预测方法[J]. 计算机工程与科学, 2022, 44(10): 1730-1737.
[4]	李文佳, 史岚, 季航旭, 罗意彭. 面向Flink的负载均衡任务调度算法的研究与实现[J]. 计算机工程与科学, 2022, 44(07): 1141-1151.
[5]	卞琛, 修位蓉, 于炯. 异构Spark集群数据倾斜修正调度策略[J]. 计算机工程与科学, 2022, 44(04): 620-630.
[6]	张元鸣, 虞家睿, 陆佳炜, 高飞, 肖刚. 基于Spark Streaming的视频大数据并行处理方法[J]. 计算机工程与科学, 2021, 43(10): 1736-1743.
[7]	胡亚红1，盛夏2，毛家发1. 资源不均衡Spark环境任务调度优化算法研究[J]. 计算机工程与科学, 2020, 42(02): 203-209.
[8]	何登平1，2，3，何宗浩1,2，李培强1,2. 基于Spark的并行化高效用项集挖掘算法[J]. 计算机工程与科学, 2019, 41(10): 1723-1730.
[9]	杨杰超，许江淳，岳秋燕，曾德斌，陆万荣. 基于SPARK与随机森林的短信诈骗用户识别研究[J]. 计算机工程与科学, 2019, 41(06): 1136-1144.
[10]	杨广明，张涛，TRUONG Thanhtung，王瑞，马连博. 基于Spark的并行化头脑风暴优化算法及复杂多峰函数优化[J]. 计算机工程与科学, 2019, 41(03): 393-399.
[11]	廖旺坚1,2,黄永峰1,2,包从开1,2. Spark并行计算框架的内存优化[J]. 计算机工程与科学, 2018, 40(04): 587-593.
[12]	刘鹏1,2，叶帅3，孟磊1,2，王灿4. 基于Spark的并行遗传算法求解多峰函数极值[J]. 计算机工程与科学, 2018, 40(02): 210-217.
[13]	张稳，罗可. 一种基于Spark框架的并行FP-Growth挖掘算法[J]. 计算机工程与科学, 2017, 39(08): 1403-1409.
[14]	王利1,2，王晶1,2，张伟功2,3，邱柯妮2,3，陆克中4. Linux内核参数对Spark负载性能影响的研究[J]. 计算机工程与科学, 2017, 39(07): 1219-1226.
[15]	马骏1,2，李想1，郭红1. 民航气象资料接收模型研究[J]. 计算机工程与科学, 2017, 39(07): 1264-1268.