• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学

• 高性能计算 • 上一篇    下一篇

基于MapReduce和Spark的大数据主动学习比较研究

翟俊海1,2,齐家兴1,2,沈矗1,2,宋丹丹1,2,王谟瀚1,2,田石1,2   

  1. (1.河北省机器学习与计算智能重点实验室,河北 保定 071002;2.河北大学数学与信息科学学院,河北 保定 071002)
  • 收稿日期:2019-04-20 修回日期:2019-06-18 出版日期:2019-10-25 发布日期:2019-10-25
  • 基金资助:

    国家自然科学基金(71371063);河北省重点研发计划项目(19210310D);河北省自然科学基金(F2017201026);河北大学研究生创新资助项目(hbu2019ss077)

Comparative study of big data active learning
based on MapReduce and Spark

ZHAI Jun-hai1,2,QI Jia-xing1,2,SHEN Chu1,2,SONG Dan-dan1,2,WANG Mo-han1,2,TIAN Shi1,2   

  1. (1.Hebei Key Laboratory of Machine Learning and Computational Intelligence,Baoding 071002;
    2.College of Mathematics and Information Science,Hebei University,Baoding 071002,China)
  • Received:2019-04-20 Revised:2019-06-18 Online:2019-10-25 Published:2019-10-25

摘要:

在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗费4个方面进行了比较研究,得出了一些有价值的结论,这些结论将为相关研究人员提供很好的帮助。
 

关键词: 大数据, 机器学习, 主动学习, 样例选择, 开源框架

Abstract:

In our previous work, a big data active learning algorithm based on MapReduce was proposed. In this paper, we transplant this algorithm into the Spark environment and propose a Spark based big data active learning algorithm. Furthermore, the two algorithms are experimentally compared on four aspects: running time, number of files, number of synchronizations, and memory cost. Some valuable conclusions are obtained,which can be very helpful to researchers in the related fields.

Key words: big data, machine learning, active learning, instance selection, open source framework