MRI：面向并行迭代的MapReduce模型

计算机工程与科学

MRI：面向并行迭代的MapReduce模型

马志强,张力，杨双涛

（内蒙古工业大学信息工程学院，内蒙古呼和浩特 010080）

收稿日期:2016-08-25 修回日期:2016-10-19 出版日期:2016-12-25 发布日期:2016-12-25
基金资助:
国家自然科学基金（61540004）；内蒙古自治区自然科学基金（2014MS0608）

MRI:A MapReduce model for parallel iteration

MA Zhiqiang,ZHANG Li,YANG Shuangtao

（College of Information Engineering,Inner Mongolia University of Technology,Hohhot 010080,China）

Received:2016-08-25 Revised:2016-10-19 Online:2016-12-25 Published:2016-12-25

摘要/Abstract

摘要：

机器学习领域内的多数模型均需要通过迭代计算以求解其最优参数，而MapReduce模型在迭代计算中的缺陷不足导致其在迭代计算中无法得到广泛应用。为解决上述矛盾，基于MapReduce模型提出并实现了一种可用于模型参数求解的并行迭代模型MRI。MRI模型在保持Map以及Reduce阶段的基础上，新增了Iterate阶段以及相关通信协议，实现了迭代过程中模型参数的更新、分发与迭代控制；通过对MapReduce状态机进行增强，实现了节点任务的重用，避免了迭代过程中节点任务重复创建、初始化以及回收带来的性能开销；在任务节点实现了数据缓存，保障了数据的本地性，并在Map节点增加了基于内存的块缓存机制，进一步提高训练集加载效率，以提高整体迭代效率。基于梯度下降算法的实验结果表明：MRI模型在并行迭代计算方面性能优于MapReduce模型。

关键词: MapReduce, 并行计算, 迭代计算, 机器学习

Abstract:

MapReduce models have not been widely used in iterative computation because of its defect in iterative computation. However, in order to get the optimal parameters, most of the algorithms in the field of machine learning need to be solved by iterative computation. We propose and implement a parallel iterative model based on the MapReduce for solving the optimal parameters.The MRI adds an iterate phase to the MapReduce to realize the update and distribution of parameters and the control of iteration during the iterative process. We then modify the MapReduce state machine to reuse the node tasks and avoid unnecessary performance overhead. In order to speed up the iterative process, the MRI also caches data block in the task nodes and implements the memory based block caching mechanism on the Map node. Experiment results on the gradient descent algorithm show that the performance of the proposed MRI model outperforms the MapReduce.

Key words: MapReduce, parallel computing, iterative computing, machine learning

马志强,张力，杨双涛. MRI：面向并行迭代的MapReduce模型[J]. 计算机工程与科学.

MA Zhiqiang,ZHANG Li,YANG Shuangtao. MRI:A MapReduce model for parallel iteration[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

179

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	179	0	0

来源	本网站	其他网站

次数	148	31
比例	83%	17%

摘要

最新录用	在线预览	正式出版

93	0	0

[1]	温鑫, 曾焘, 李春波, 徐子晨. 面向服务器无感计算的模型推理服务切换方法研究[J]. 计算机工程与科学, 2024, 46(07): 1210-1217.
[2]	丁建平, 李卫军, 刘雪洋, 陈旭. 命名实体识别研究综述[J]. 计算机工程与科学, 2024, 46(07): 1296-1310.
[3]	黄智慧, 肖祥立, 张玉书, 薛明富. 基于隐形后门水印的开源数据集版权保护[J]. 计算机工程与科学, 2024, 46(06): 1013-1021.
[4]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[5]	黄鹏程, 冯超超, 马驰远, . 未知工艺角下时序违反的机器学习预测[J]. 计算机工程与科学, 2024, 46(03): 395-399.
[6]	李扬, 尹大鹏, 马自强, 姚梓豪, 魏良根, . 结合决策树和AdaBoost的缓存侧信道攻击检测[J]. 计算机工程与科学, 2024, 46(03): 440-452.
[7]	彭畅, 刘青枝, 陈长波, . 多面体模型下的循环置换与自动调优[J]. 计算机工程与科学, 2023, 45(12): 2121-2134.
[8]	吴超, 卫谦, 周俊伟, 李会民, 孙广中. 基于异构计算平台的背景噪声预处理并行算法[J]. 计算机工程与科学, 2023, 45(10): 1711-1719.
[9]	王鑫, 彭健. 基于HYB格式SpMV在新一代申威架构上的实现与优化[J]. 计算机工程与科学, 2023, 45(10): 1754-1762.
[10]	赵振宇, 杨天豪, 蒋汶乘, 张书政. 基于机器学习的多压多温多参标准单元延迟快速计算方法[J]. 计算机工程与科学, 2023, 45(08): 1331-1338.
[11]	刘屹成, 刘晓燕, 严馨. 并行平衡级联支持向量机[J]. 计算机工程与科学, 2023, 45(07): 1170-1177.
[12]	李小玲, 方建滨, 马俊, 谭霜, 谭郁松. 基于监督学习的稀疏矩阵自动任务分配[J]. 计算机工程与科学, 2023, 45(05): 782-789.
[13]	臧照虎, 李晨, 王耀华, 陈小文, 郭阳. 面向众核系统的层次化栅栏同步机制[J]. 计算机工程与科学, 2022, 44(11): 1901-1908.
[14]	张勇, 张曦, 万云博, 何先耀, 赵钟, 卢宇彤. 非结构有限体积CFD计算的网格重排序优化[J]. 计算机工程与科学, 2022, 44(10): 1721-1729.
[15]	胡艳芳, 熊文, 高炜. 基于 Spark 平台的网络游戏用户流失预测方法[J]. 计算机工程与科学, 2022, 44(10): 1730-1737.