PFPonCanTree：一种基于MapReduce的并行频繁模式增量挖掘算法

计算机工程与科学

PFPonCanTree：一种基于MapReduce的并行频繁模式增量挖掘算法

肖文，胡娟，周晓峰

(河海大学文天学院,安徽马鞍山 243000)

收稿日期:2016-12-08 修回日期:2017-02-15 出版日期:2018-01-25 发布日期:2018-01-25
基金资助:
安徽省高校自然科学研究项目(KJ2016A623)

PFPonCanTree：A parallel frequent patterns

incremental mining algorithm based on MapReduce

XIAO Wen,HU Juan,ZHOU Xiao-feng

(Wentian College,Hohai University,Maanshan 243000,China)

Received:2016-12-08 Revised:2017-02-15 Online:2018-01-25 Published:2018-01-25

摘要/Abstract

摘要：

频繁模式挖掘是最重要的数据挖掘任务之一，传统的频繁模式挖掘算法是以“批处理”方式执行的，即一次性对所有数据进行挖掘，无法满足不断增长的大数据挖掘的需要。MapReduce是一种流行的并行计算模式，在并行数据挖掘领域已得到了广泛的应用。将传统频繁模式增量挖掘算法CanTree向MapReduce计算模型进行了迁移，实现了并行的频繁模式增量挖掘。实验结果表明，提出的算法实现了较好的负载均衡，执行效率有明显提升。

关键词: 数据挖掘, 频繁模式挖掘, 增量挖掘, MapReduce, Hadoop, PFP

Abstract:

Frequent pattern mining is one of the most important data mining tasks. Traditional frequent pattern mining algorithmsare executed in a "batch" mode, that is,all the data are mined in one time, so they cannotmeet the needs of the ever-growing bigdata mining. MapReduce is a popular parallel computing modeland has been widely used in the field of parallel data mining. In this paper, we migrate the traditional frequent pattern incremental mining algorithm CanTree to the MapReduce computing model,achieving a parallel frequent pattern incremental miningalgorithm. The experimental results show that the proposed algorithm achievesbetterload balancing and improvesthe execution efficiency significantly.

Key words:

data mining, frequent pattern mining, incremental mining, MapReduce, Hadoop, PFP

肖文，胡娟，周晓峰. PFPonCanTree：一种基于MapReduce的并行频繁模式增量挖掘算法[J]. 计算机工程与科学.

XIAO Wen,HU Juan,ZHOU Xiao-feng.

PFPonCanTree：A parallel frequent patterns

incremental mining algorithm based on MapReduce

[J]. Computer Engineering & Science.

[1]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[2]	沈玲珍, 王欣, 石俊豪, 王璐. 模式感知采样算法研究[J]. 计算机工程与科学, 2025, 47(4): 740-750.
[3]	王辉, 李燕, 丁丁, 吴坤, 黄雅平, . 一种基于关联程度的高效用数量比频繁模式挖掘算法[J]. 计算机工程与科学, 2024, 46(9): 1702-1710.
[4]	赵琰, 马慧芳, 王文涛, 童海斌, 贺相春. 可靠响应表示增强的知识追踪方法[J]. 计算机工程与科学, 2024, 46(3): 535-544.
[5]	雷轩, 程光, 张玉健, 郭靓, 张付存. 基于电力网络态势感知平台的告警信息关联分析[J]. 计算机工程与科学, 2023, 45(7): 1197-1208.
[6]	王晨宇, 温浩珉, 郭晟楠, 林友芳, 万怀宇, . 面向快递员揽收到达时间预测的多任务深度时空网络[J]. 计算机工程与科学, 2023, 45(1): 136-144.
[7]	王文涛, 马慧芳, 舒跃育, 贺相春. 基于上下文表示的知识追踪方法[J]. 计算机工程与科学, 2022, 44(9): 1693-1701.
[8]	程小刚, 郭韧, 周长利, . 基于理性密码学的分布式隐私保护数据挖掘框架[J]. 计算机工程与科学, 2022, 44(10): 1781-1787.
[9]	刘云, 肖添. 网络日志数据中条件因果挖掘算法的优化研究[J]. 计算机工程与科学, 2021, 43(9): 1584-1590.
[10]	文凯, 许萌萌, 张许红, . 基于列表结构的加权可擦除项集挖掘算法[J]. 计算机工程与科学, 2021, 43(9): 1676-1683.
[11]	熊中敏, 汪博, 陶然, 郑宗生, 陈明, . 一种基于主属性判定的关联规则挖掘约简算法[J]. 计算机工程与科学, 2021, 43(4): 738-745.
[12]	赵俊生, 王鑫宇, 尹玉洁, 张林. 基于蒙古语新闻领域本体的分布式检索方法[J]. 计算机工程与科学, 2021, 43(3): 560-570.
[13]	何望1,2，林果园1,2. 基于FP-Growth改进算法的云服务器故障数据分析[J]. 计算机工程与科学, 2020, 42(5): 770-775.
[14]	谭胜昔，贾金萍，赵斌，吉根林. 动态空间网络中的黑洞模式挖掘算法[J]. 计算机工程与科学, 2020, 42(2): 325-333.
[15]	藏润强, 左美云, 郭鑫鑫. 基于Doc2Vec和BiLSTM的老年患者疾病预测研究[J]. 计算机工程与科学, 2020, 42(12): 2273-2279.