基于GPU的并行关联规则挖掘算法的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:wl281472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网与计算机技术的快速发展,人们利用新技术生产、获取、存储数据的能力有了很大的提升,各领域都积累了相当大规模的、存储形式各异的数据。而这些数据里往往隐藏着很多有用的信息,怎样挖掘出这些信息逐渐成为了一个亟待解决的问题。数据挖掘(Data Mining)技术就是为了解决这一问题而生的,数据挖掘是从海量、无规则的数据里,提取出其中隐藏的有用知识的过程。关联规则挖掘技术是数据挖掘领域的一个重要分支,主要研究事务数据库中有利用价值的项与项之间的联系,而忽略项本身的意义及其顺序。主要应用领域有商业推荐系统、医疗诊断系统、金融投资等,关联规则挖掘从原始资料集合中找出高频项目组,并生成关联规则。本文主要针对关联规则挖掘的经典算法所存在的问题进行改进,通过借助GPU体系架构的多核多并发的并行计算能力,针对算法中影响效率的两个过程进行重新设计与并行化改进。本文首先对GPU体系架构和CUDA编程环境进行了深入研究,并结合算法的实现过程,在数据结构与算法流程方面进行了重新的设计,利用GPU与CPU的协同工作,复杂的逻辑处理部分在CPU中实现,并行计算部分在GPU中实现,利用各自性能优势提升算法性能。本文设计的基于GPU的并行关联规则挖掘算法主要有以下几个模块:基于前缀树的候选集生成模块,GPU支持度计算模块,CPU支持度计算模块,非频繁项消除模块。性能测试阶段本文选取了四种不同的测试数据集对改进算法性能进行了测试,并且选取另外几种算法作为对照组,对其性能进行测试并做横向对比,得出结论:基于GPU的并行关联规则挖掘算法在算法性能上有了较大的提升。
其他文献
模型驱动架构是对象管理组织(OMG)提出的一种软件模型组织管理框架。模型驱动架构为人们提供了从模型级别实现软件重用的有力支持。   模型驱动的核心思想是将软件的业务
当今计算机科技日新月异,信息化已经走进人们的生活,自动控制、无纸化自动办公、企业信息化、网上书店、网上娱乐等等都是信息化时代的产物。当今的时代是经济全球化、信息网络
Ad Hoc网络是一种特殊的多跳无线网络,是不依赖任何固定设施的移动无线自组织网络,网络中的每个无线节点都是对等的。由于Ad Hoc网络的灵活性和实用性,加之近年来无线通讯技
随着信息化时代的发展,新疆油田公司准备以信息化形式管理准噶尔盆地近50年来积累的勘探和开发的数据和经验。但是这些数据和经验是海量的,要有效的管理和利用这些数据,需要依赖
随着信息技术的快速发展,数据的产生、获取和积累变得十分简单快捷。为此,如何高效地从海量数据中发现有价值且易于被用户理解和使用的信息和模式,成为了一个十分重要而紧迫的问
近年来,对等(Peer-to-Peer,简称P2P)计算模式由于其特有的优势,得到了非常广泛的应用,在商业、通讯等领域发挥着巨大的作用。P2P系统本质上是一种分布式系统,没有中心服务器,节点既
Map/Reduce型海量数据处理平台是大数据时代的最新技术成果,该平台具有用户友好的编程模型、本地化的数据处理机制和高可用性等新特征,已被广泛应用于学术及产业的众多领域。
对于一种确定类型的Web实体,例如人物、电影等,从Web上海量网页中高效提取出此类型实体的相关属性和活动信息,并以实体实例和实体踪迹的形式组织起来,用以构建以实体为基本单元的
学位
本文首先介绍了勘探智能决策支持系统(EIDSS)及其实现技术的选型,根据系统功能需求,将EIDSS设计成基于Web的DSS,在众多Web应用开发平台中,EIDSS采用J2EE平台。同时,由于勘探战略选
近年来,数据挖掘技术引起了信息产业界甚至是整个社会的广泛关注,其主要原因之一是:随着数字化时代越来越快的发展步伐,在工农业及第三产业的生产过程中,都存在着大量数据,并且急