论文部分内容阅读
随着数据的爆炸式增长,如何高效地从大量数据中挖掘出有效的价值,成为了当今大数据领域的研究热点之一。数据挖掘在寻找数据背后的价值上起到了非常重要的作用,而关联规则挖掘是数据挖掘中一个重要的研究方向,用来发掘数据之间的关联性。Hadoop作为云计算最为核心的分布式平台,拥有分布式存储和并行计算等组件,为挖掘算法的并行化设计和实现提供了有力的支持。本文研究了基于Hadoop的关联规则挖掘算法,主要内容如下:首先,针对Apriori算法在支持度统计步骤数据扫描量过大,造成算法挖掘速度下降的问题,提出了一种改进的基于fp-tree的Apriori算法。该改进算法从减少数据扫描量的角度出发,结合fp-tree对数据进行压缩,通过尾元分区、动态缩减数据、快速支持度统计等方法对Apriori算法进行改进。并针对该改进算法在单机执行时无法有效处理大数据的瓶颈,将改进算法在Hadoop下进行了并行化设计和实现。实验结果表明,本文提出的改进算法不仅在单机执行时拥有较快的挖掘速度,并且在多节点集群环境下也拥有良好的加速比、数据伸缩率,可以适应大数据的挖掘。其次,对FP-Growth算法的并行化进行了分析,并对其中一种FP-Growth类并行算法——PFP算法进行了分析和改进。针对PFP算法在分组阶段没有考虑分组不均衡而造成整体挖掘速度不高的问题,提出了负载均衡的PFP改进算法。该改进算法构建了一种新的负载预估模型用于负载量预估,该预估模型先进行数据抽样,然后将项元在头表中的位置和项元在抽样数据事务中的位置相结合对负载量进行预估。同时对fp-tree进行剪枝,使得项元迭代次数减少,负载量得到缩减。实验结果表明,改进后的负载均衡的PFP算法拥有较高的整体挖掘速度,并且拥有着良好的扩展能力和数据伸缩率。