基于MapReduce和Spark的大数据主动学习比较研究

计算机工程与科学

基于MapReduce和Spark的大数据主动学习比较研究

翟俊海1,2，齐家兴1,2,沈矗1,2,宋丹丹1,2,王谟瀚1,2,田石1,2

（1.河北省机器学习与计算智能重点实验室,河北保定 071002；2.河北大学数学与信息科学学院，河北保定 071002）

收稿日期:2019-04-20 修回日期:2019-06-18 出版日期:2019-10-25 发布日期:2019-10-25
基金资助:
国家自然科学基金(71371063)；河北省重点研发计划项目（19210310D）；河北省自然科学基金(F2017201026)；河北大学研究生创新资助项目（hbu2019ss077）

Comparative study of big data active learning

based on MapReduce and Spark

ZHAI Jun-hai1,2，QI Jia-xing1,2，SHEN Chu1,2，SONG Dan-dan1,2，WANG Mo-han1,2，TIAN Shi1,2

(1.Hebei Key Laboratory of Machine Learning and Computational Intelligence,Baoding 071002;

2.College of Mathematics and Information Science,Hebei University,Baoding 071002,China)

Received:2019-04-20 Revised:2019-06-18 Online:2019-10-25 Published:2019-10-25

摘要/Abstract

摘要：

在我们以前的工作中，提出了基于MapReduce的大数据主动学习算法。在本文中，将这一算法移植到Spark环境，提出了基于Spark的大数据主动学习算法，并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗费4个方面进行了比较研究，得出了一些有价值的结论，这些结论将为相关研究人员提供很好的帮助。

关键词: 大数据, 机器学习, 主动学习, 样例选择, 开源框架

Abstract:

In our previous work, a big data active learning algorithm based on MapReduce was proposed. In this paper, we transplant this algorithm into the Spark environment and propose a Spark based big data active learning algorithm. Furthermore, the two algorithms are experimentally compared on four aspects: running time, number of files, number of synchronizations, and memory cost. Some valuable conclusions are obtained,which can be very helpful to researchers in the related fields.

Key words: big data, machine learning, active learning, instance selection, open source framework

翟俊海1,2，齐家兴1,2,沈矗1,2,宋丹丹1,2,王谟瀚1,2,田石1,2. 基于MapReduce和Spark的大数据主动学习比较研究[J]. 计算机工程与科学.

ZHAI Jun-hai1,2，QI Jia-xing1,2，SHEN Chu1,2，SONG Dan-dan1,2，WANG Mo-han1,2，TIAN Shi1,2.

Comparative study of big data active learning

based on MapReduce and Spark

[J]. Computer Engineering & Science.

[1]	陈侨安1，李峰1，曹越1，龙明盛1,2. 基于运行数据分析的Spark任务参数优化[J]. J4, 20160101, 38(01): 11-19.
[2]	彭林, 张鹏, 陈俊峰, 唐滔, 黄春. 基于监督学习的稀疏矩阵乘算法优选[J]. 计算机工程与科学, 2025, 47(03): 381-391.
[3]	陈文锦. QTorch:基于独立的量子程序设计语言的量子-经典混合机器学习框架[J]. 计算机工程与科学, 2025, 47(03): 412-421.
[4]	王宇飞, 刘强, 张唯贞, 伍晓洁, 李佳雯, 王煜恒. rtTorTIM：基于多模态特征融合和Stacking集成学习的实时Tor流量识别方法#br#[J]. 计算机工程与科学, 2025, 47(02): 238-246.
[5]	温鑫, 曾焘, 李春波, 徐子晨. 面向服务器无感计算的模型推理服务切换方法研究[J]. 计算机工程与科学, 2024, 46(07): 1210-1217.
[6]	丁建平, 李卫军, 刘雪洋, 陈旭. 命名实体识别研究综述[J]. 计算机工程与科学, 2024, 46(07): 1296-1310.
[7]	黄智慧, 肖祥立, 张玉书, 薛明富. 基于隐形后门水印的开源数据集版权保护[J]. 计算机工程与科学, 2024, 46(06): 1013-1021.
[8]	钟权, 陈志广, 高蓝光. EMRI-Tree：面向多分辨率可视化的层次式数据结构[J]. 计算机工程与科学, 2024, 46(05): 776-784.
[9]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[10]	黄鹏程, 冯超超, 马驰远, . 未知工艺角下时序违反的机器学习预测[J]. 计算机工程与科学, 2024, 46(03): 395-399.
[11]	李扬, 尹大鹏, 马自强, 姚梓豪, 魏良根, . 结合决策树和AdaBoost的缓存侧信道攻击检测[J]. 计算机工程与科学, 2024, 46(03): 440-452.
[12]	彭畅, 刘青枝, 陈长波, . 多面体模型下的循环置换与自动调优[J]. 计算机工程与科学, 2023, 45(12): 2121-2134.
[13]	赵振宇, 杨天豪, 蒋汶乘, 张书政. 基于机器学习的多压多温多参标准单元延迟快速计算方法[J]. 计算机工程与科学, 2023, 45(08): 1331-1338.
[14]	李小玲, 方建滨, 马俊, 谭霜, 谭郁松. 基于监督学习的稀疏矩阵自动任务分配[J]. 计算机工程与科学, 2023, 45(05): 782-789.
[15]	杨浩艺, 陈微, 姚泽欢, 谭郁松, 李非. 基于转录组学数据的抗真菌药物预测方法研究[J]. 计算机工程与科学, 2023, 45(02): 246-251.