基于私有云和物理机的混合型大数据平台设计及实现

计算机工程与科学

• 论文 • 下一篇

基于私有云和物理机的混合型大数据平台设计及实现

王永坤1,罗萱1,金耀辉1,2

（1.上海交通大学网络信息中心,上海 200240;2.上海交通大学光纤通信国家重点实验室,上海 200240）

收稿日期:2017-09-03 修回日期:2017-10-30 出版日期:2018-02-25 发布日期:2018-02-25
基金资助:
国家自然科学基金（61371084）

A hybrid big data platform based on

private cloud VMs and bare metals

WANG Yong-kun1,LUO Xuan1,JIN Yao-hui1,2

（1.Network and Information Center,Shanghai Jiao Tong University,Shanghai 200240;

2.State Key Laboratory of Advanced Optical Communication System and Network,

Shanghai Jiao Tong University,Shanghai 200240,China）

Received:2017-09-03 Revised:2017-10-30 Online:2018-02-25 Published:2018-02-25

摘要/Abstract

摘要：

大数据分析技术的广泛应用离不开大数据平台的支撑，构建大数据平台已经是很多企业和机构的重要需求。构建大数据平台需要复杂的系统性的技术，特别是需要考虑系统性能和可扩展性两方面需求。随着数据体量不断增大、用户需求不断增多，规划时的数据平台规模很可能不能满足不断变化的需求。因此，设计了一种混合的大数据平台架构：混合使用物理服务器和私有云云主机的大数据平台。这样就兼顾了性能和可扩展性：由于物理服务器性能一般要高于云上的虚拟机，所以构建在物理服务器上的大数据平台，性能一般要好于构建在私有云上大数据平台；从私有云上启动云服务器非常方便、快捷，所以大数据平台的计算和存储结点可以动态弹性地扩容到私有云上，从而保证高峰期的时候大数据平台仍然可以有充足的处理能力。在生产环境实现了这种混合型设计，在生产环境中的测试也表明了这种设计的有效性。

关键词: 大数据, 私有云, 大数据分析, 大数据处理, 数据平台, Hadoop, Openstack

Abstract:

The wide application of big data analysis technology cannot be separated from the support of big data platforms. Building big data platforms is an important demand of many enterprises and institutions. Building a big data platform requires sophisticated, system-wide technologies, and system performance and scalability should be considered especially. With the increasing volume of data, user needs continue to increase, and hence the scale of the planned data platform may not be able to meet the changing needs. Therefore, we design a hybrid big data platform that uses both bare metals and private cloud Virtual Machines (VM) . This takes into account performance and scalability. Because bare metals generally outperform private cloud VMs, the big data platforms built on bare metals generally perform better than the big data platforms built on private cloud VMs. It is very convenient and quick to start the cloud servers in the private cloud, so the computing and storage nodes of the big data platform can be flexibly expanded to the private cloud so as to ensure that the big data platform can still have sufficient processing capacity during the peak period. We implemented this hybrid design in a production environment. Tests in the production environment also demonstrate the effectiveness of this design.

Key words: big data, private cloud, big data analysis, big data processing, data platform, Hadoop, Openstack

王永坤1,罗萱1,金耀辉1,2. 基于私有云和物理机的混合型大数据平台设计及实现[J]. 计算机工程与科学.

WANG Yong-kun1,LUO Xuan1,JIN Yao-hui1,2.

A hybrid big data platform based on

private cloud VMs and bare metals

[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

392

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	392	0	0

来源	本网站	其他网站

次数	224	168
比例	57%	43%

摘要

172

最新录用	在线预览	正式出版

172	0	0

来源	本网站	其他网站

次数	169	3
比例	98%	2%

[1]	陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 20160101, 38(01): 11-19.
[2]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[3]	钟权, 陈志广, 高蓝光. EMRI-Tree：面向多分辨率可视化的层次式数据结构[J]. 计算机工程与科学, 2024, 46(05): 776-784.
[4]	杨浩艺, 陈微, 姚泽欢, 谭郁松, 李非. 基于转录组学数据的抗真菌药物预测方法研究[J]. 计算机工程与科学, 2023, 45(02): 246-251.
[5]	葛旭冉, 刘洋, 陈志广, 肖侬. 基于MPI的并行大数据集生成器[J]. 计算机工程与科学, 2022, 44(07): 1152-1161.
[6]	刘世缘, 李云春, 陈晨, 杨海龙. 面向大数据存储的主动与被动相结合的性能评测方法体系结构与实现[J]. 计算机工程与科学, 2022, 44(04): 584-593.
[7]	杨柏蔼, 赵山, 刘芳. 无服务器计算技术研究综述[J]. 计算机工程与科学, 2022, 44(04): 611-619.
[8]	吕高锋, 王玉鹏, 杨鎔嘉, 唐竹. 基于聚合的FlowRadar网络数据采集加速模型设计[J]. 计算机工程与科学, 2022, 44(02): 220-226.
[9]	张元鸣, 虞家睿, 陆佳炜, 高飞, 肖刚. 基于Spark Streaming的视频大数据并行处理方法[J]. 计算机工程与科学, 2021, 43(10): 1736-1743.
[10]	黄山, 房六一, 徐浩桐, 段晓东, . 面向容器环境的Flink的任务调度优化研究[J]. 计算机工程与科学, 2021, 43(07): 1173-1184.
[11]	刘亚波, 吴秋轩. 基于长短时记忆网络的电商大数据同一性标定[J]. 计算机工程与科学, 2021, 43(03): 407-415.
[12]	赵俊生, 王鑫宇, 尹玉洁, 张林. 基于蒙古语新闻领域本体的分布式检索方法[J]. 计算机工程与科学, 2021, 43(03): 560-570.
[13]	李琼, 宋振龙, 袁远, 谢徐超. 一种基于NVMeoF存储池的分域共享并发存储架构[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1711-1719.
[14]	马满福1,2，员欣淼1,2，李勇1,2，刘元喆1,2，王常青3. 虚拟空间中社会分层行为研究[J]. 计算机工程与科学, 2020, 42(05): 803-811.
[15]	林连海1,田立勤1,2,蔡铭楷1,李升宏1. 方差辗转的软集参数约简算法[J]. 计算机工程与科学, 2020, 42(02): 250-258.

基于私有云和物理机的混合型大数据平台设计及实现

A hybrid big data platform based on

private cloud VMs and bare metals

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价