基于Hadoop的大数据关联规则挖掘算法的研究与实现

被引量 : 0次 | 上传用户:zyz118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据量的爆炸式增长,如何大数据中的挖掘有价值的信息已经被广泛关注。目前数据挖掘技术是解决该问题的重要技术手段。通过挖掘数据中的频繁项集来推导关联规则是数据挖掘技术的一项重要内容。然而随着大数据时代的到来,传统的数据挖掘算法已经不能适应当前大数据的特性,因此研究并提出新的能够适应大数据环境的数据挖掘算法已经显得十分迫切而且需要。本文对当前国内外的大数据挖掘的算法进行了较深入的分析和研究,提出了一种能够高效快速挖掘大数据集的关联规则的实现算法,并以此期望解决大数据下数据挖掘速度慢的问题。本文的主要工作可以归纳为以下几个方面:(1)对当前数据挖掘技术的现状与存在问题进行了分析和研究。日益增长的数据量与人们对数据中蕴含的有价值信息的渴望之间的矛盾以及数据量的增长与当前硬件发展速度之间的矛盾,是当前大数据环境下所必须解决的主要矛盾,数据集的变大并没有使得人们对数据挖掘的速度要求有所降低,反而希望能够尽快而准确的挖掘出大数据集中的有价值信息。(2)对国内外数据挖掘算法和分布式计算模型Map Reduce以及分布式计算框架Hadoop进行了分析与研究。Apriori算法需要多次搜索原数据库,容易造成很大的I/O开销,FPGrowth算法虽然利用FPTree树形结构对原数据库进行无损压缩,但是在迭代挖掘频繁模式时子树结构太多,不利于大数据挖掘过程。Hadoop降低了分布式编程的难度并且易于管理,而Map Reduce很适应关联规则挖掘,因此Hadoop和Map Reduce在大数据关联规则挖掘算法中有一定的优势。(3)研究了Pre Post算法并给出其改进算法。Pre Post算法结合了FPGrowth算法和垂直挖掘算法的优势。然而在挖掘时采用了类似于Apriori算法的方式,虽然合并两个N-list的时间复杂度是线性的,但对于S个频繁K项集需要比较(S*(S-1))/2次,这使得时间开销不容小觑,并且在挖掘K+1项集时必须保存所有的频繁K项集在内存中,这有可能超出内存承载能力。因此,本文提出了一种自底向上的深度优先策略对Pre Post算法进行了改进。(4)提出了一种基于Hadoop平台的新颖的大数据挖掘算法—MRPre Post,在一定程度上弥补了大数据环境下数据挖掘算法的缺失。影响并行算法性能的一个主要原因就是集群的负载,为了提高MRPre Post算法性能,本文进一步提出了一种能够保证集群负载均衡的分组策略。实验表明,MRPre Post算法能够适应大数据关联规则挖掘。
其他文献
1病历介绍患者,男,25岁,因“转移性右下腹疼痛1d”以“急性阑尾炎”收入院,欲行手术治疗。术前检查:体温38.2℃,脉搏98次/min,血压正常,即往身体健康。实验室检查白细胞升高。拟在连续
<正>分泌性中耳炎影响患儿听力,甚至影响语言、交流能力发育[1],若不能进行合理治疗,可能会造成儿童听力障碍以及言语与治疗发育不良。近几年临床研究显示,该疾病与儿童腺样
多民族城市社区是我国各民族大杂居、小聚居的具体体现。多民族城市社区族际整合的实现不仅对多民族地区民族团结的建设具有十分重要的示范意义,而且对我国政权的民族基础同
为了使速度轮滑初学者尽快地掌握滑行技术,采用文献资料法并结合高校轮滑教学实践经验和存在的问题,以教学安全为前提,培养学生兴趣为重点,对初级轮滑课的教学内容和步骤、教
采用单因子分析方法,在生化培养箱中设置5个干露梯度,15个盐度梯度及12个温度梯度,研究干露、盐度、温度变化对中华虎头蟹仔蟹存活及其活力的影响。试验结果表明,不同干露温
随着生活水平的提高及法定节假日的实行,越来越多的人选择外出旅游来度过自己的闲暇时间,旅游需求随之得到蓬勃增长。然而,日益膨胀的旅游需求与旅游资源的相对稳固形成的供
证监会于2005年12月31日颁布了《上市公司股权激励管理办法(试行)》,随后在2008年3月17日和2008年9月16日陆续颁布了《股权激励有关事项备忘录1、2、3号》,随着股权激励制度
消费者的品牌信息偏好影响他们处理和重现信息的程度,最终影响品牌态度的形成。了解社会化媒体条件下的企业品牌信息内容对消费者购买意愿的影响,能够帮助预测消费者会如何处
小规模限制性在线课程(SPOC)是一种在线课程资源与传统课堂深度融合的教学模式。混合学习主张将传统课堂教学与网络在线学习有机结合起来。职业教育教学资源库建设的目的在于
基层腐败无疑是基层诸多问题中最突出的问题。基层腐败成因分析和对策研究是农村基层工作的重中之重。基层腐败治理的关键在于构建基层腐败治理机制。本文选取河南省邓州市创