论文部分内容阅读
数据挖掘是目前信息科学领域最前沿的研究课题之一,在许多领域均有成功的应用范例。应用数据挖掘技术可以发现一些隐藏在大量数据背后的潜在信息来预测事物发展趋势,这些信息极大提高了决策支持的能力。关联规则是其中一个重要的研究方向,有着广泛的应用背景,已引起人们的普遍关注。其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。目前,关联规则及挖掘算法研究的热点主要是如何提高发现频繁项集的效率,而对如何由频繁项集生成关联规则却很少涉及,本文则将研究重点放在了后者,主要工作有以下几个方面:1.分析了由频繁项集生成关联规则的经典算法和李雄飞算法,并将求下集极大元的Boundary算法用于求所有关联规则后件,经典算法及李雄飞算法采用的是逐层搜索的宽度优先方法,而Boundary算法则采用深度优先的方法发现频繁项集,本文分析了这三种算法的优缺点。2.在综合和借鉴前人研究成果的基础上,给出了GRSET(Generate Rules by using Set-Enumeration Tree)算法。GRSET算法采用的是集合枚举树的数据结构,采用深度优先的方法递归地生成关联规则的后件。本文给出了GRSET算法的运算过程,并分析了它的优点。3.通过实验对李雄飞算法、Boundary算法及GRSET算法进行比较,实验结果表明GRSET算法运行效率相对较高。本文对实验结果进行研究,分析了GRSET算法效率高的原因。