基于MapReduce的分布式闭频繁模式发现方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mihu0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户需求和网络的不断发展,人类社会积累的知识、数据急剧增加。如何从海量的事务数据中发现用户感兴趣的规则、有用的知识一直是数据挖掘领域研究者面临的一大难题,而这正是本课题研究希望解决的问题。由于关联规则挖掘领域计算量大,I/O交互集中的特点,原有的串并行方法在解决问题时都存在着一定的缺陷。本课题的研究目的就是改进现有的并行频繁模式挖掘算法使其能够突破现有算法的局限性。  本课题围绕着海量并行频繁模式发现问题,展开了深入研究,主要研究成果可归纳为以下几个方面:  本文在对现有串并行频繁模式挖掘方法进行了大量调研和深入分析基础上,归纳总结了各方法的优缺点;在MapReduce并行计算框架下,把频繁闭项集挖掘的优化策略引入挖掘过程中,为困扰研究者多年的海量数据下低支持度阀值的频繁模式发现问题提出了一种有效的解决方案,其剪枝、项集合并、项跳过等改进策略有效地优化了并行挖掘过程,提升了频繁模式发现算法的性能。  本文在并行闭模式发现的基础上进行了进一步的优化,提出一种挖掘中节点运行负载的评价标准,完善了并行集群分组方法,对集群分组方法进行了负载均衡的优化改进,避免了快节点等待慢节点运行所带来的性能损耗;深入分析了条件FP-tree的挖掘过程,将FP-Bonsai的α?剪枝应用于并行挖掘条件FP-tree过程中,有效简化了条件FP-tree的结构,使算法性能有了进一步的提升;引入了并行闭规则生成优化方法,完善了算法处理的全过程。  基于以上研究成果,本文设计并实现了并行闭频繁模式发现原型系统。系统包括预处理、频繁闭项集发现、闭规则产生、用户界面展示等四个模块,涵盖了并行频繁模式发现的全过程,服务于本课题的研究中,提供一个全面覆盖关联规则挖掘研究的实验平台。
其他文献
随着WEB2.0时代的到来,个人用户已经越来越多的参与到互联网信息的产生当中,各种各样的博客,微博,论坛和社区,每天都产生了大量的信息和数据。随着海量信息的不断整张,基于关
近年来,随着Android移动智能终端的普及应用,Android恶意软件也呈现爆发式的增长,严重影响了智能终端用户的财产安全和隐私信息安全。因此,如何实时监测和拦截Android软件恶
互联网是一个由数以百万计的本地网络组成的全球性网络,承载着广泛的信息资源与和服务。在网络空间中运作的系统和网络存在安全漏洞,给使用它们的个人、组织与国家带来安全风险
反射攻击是最近较为流行的一种分布式DDoS攻击,对互联网的正常运行造成了比较严重的危害;扫描通常作为所有网络入侵行为的起点在互联网上普遍存在。本文的研究工作将以反射式D
RFID(Radio Frequency Identification)是一种采用射频电波的自动识别技术, RFID基本系统由标签、阅读器和主机构成,阅读器读到的标签经过网络传输到主机。当前 RFID技术广泛
内网攻击是企业面临的最严重的网络安全威胁之一。在过去的十年里,成功的内网攻击案例增加了数倍,而由此带来的经济损失也数以亿计。在所有的对内网安全构成威胁的行为中,数
当今互联网技术的发展非常快速,网上论坛的功能也越来越强大和完善。各大门户网站几乎都建立了自己的论坛,而从门户网站的论坛板块细分上可以看出,论坛资源正在逐步完善,以适
在互联网技术迅猛发展的信息时代,多媒体通信技术的研究越来越受到关注。通信提供商及其合作伙伴和用户越来越需要新一代基于 IP的服务,而 SIP(The Session Initiation Proto
伴随着网络技术及多媒体技术如数字图像、数字视频等的飞速发展,数字信息在传播过程被窃取、篡改、非法复制和传播的问题越来越严重,这些成为信息安全健康持续发展的一大障碍
随着分形理论的研究与发展,分形理论在自然景观模拟、艺术图案设计、图像数据压缩、分形自然生长与混沌动力体系的研究等各个领域获得了广泛的应用,其中用分形方法模拟自然景