摘要:
传统的Apriori算法要多次扫描数据集,随着数据量的快速增长,传统的Apriori算法已经不能很好地适用于大数据分析,针对该情况设计了IPApriori算法。首先通过剪枝策略设计了一种适用于多维数据的IApriori算法,再将IApriori算法与Hadoop分布式框架相结合,实现了多维关联规则挖掘算法的并行化。将IPApriori算法运用到手机用户行为预测关联分析中,分析影响手机用户行为的一些主要因素,挖掘出手机用户行为与年龄维度、性别维度、时间维度、地点维度和手机品牌维度属性之间可能存在的某种关联。最后通过实验证明,算法的并行化和建立结构的方法可以降低系统的I/O负荷,提高算法的执行效率。
杨青1,2,3,张亚文1,2,张琴1,袁佩玲1. 基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学.
YANG Qing1,2,3,ZHANG Ya-wen1,2,ZHANG Qin1,YUAN Pei-ling1.
Research and application of a multidimensional
association rules mining algorithm based on Hadoop
[J]. Computer Engineering & Science.