论文部分内容阅读
随着信息技术的迅猛发展,要从日益庞大和复杂的数据中发现有价值的信息和知识,达到为决策服务的目的,已成为非常艰巨的任务。数据挖掘技术在此背景下应运而生。关联规则挖掘是数据挖掘中的一个重要分支,也是目前应用最广泛的一种数据挖掘类型。目前传统的关联规则挖掘技术大多采用串行算法,随着数据库规模的增大以及分布式数据库的发展,研究并行算法以更好地适应实际需求逐渐成为人们所关注的目标。本文在探讨数据挖掘的基本知识的基础上,对各种传统的串行算法进行对比分析,总结它们的优缺点,说明进行并行挖掘关联规则的必要性;结合集群系统特点,介绍了并行体系结构,探讨了并行编程模式及方法。并行关联规则的代表算法各有特点,论文对算法的基本思想进行了介绍,并对比分析了不同算法的性能特点。并行算法对大型数据库的处理明显优于串行算法,但是,现在的并行算法仍然有许多不完善的地方,存在一些需要解决的问题。并行算法对并行机的依赖性很强,在一台并行机上有效的算法在别的不同结构的并行机上可能效果并不好,现有的算法并不完全适合集群系统。在集群环境下,设计并行算法时,为尽可能减少通信量,应采用数据并行的思想。论文结合集群特点,提出了在集群环境下采取基于主从(Master/Slave)模式的数据并行策略来并行挖掘关联规则,并对性能进行了分析。