论文部分内容阅读
从知识发现概念的最初提出开始,数据挖掘理论和技术在短短十年左右的时间里得到了迅速发展。人们通过数据间的相关性经常会得到非常有意义的新知识,发现数据集中的相关模式是若干研究领域(如统计学,机器学习和数据挖掘)的一项重要研究内容。在实践中,相关模式挖掘有着广泛的应用背景。
本文主要针对数据集中相关模式的挖掘问题展开系统而深入的研究工作。我们分别研究了求完备解集合的极大紧密相关类簇挖掘方法,求近似解的核心聚类分析方法,以及对“购物篮”数据的紧密相关项集挖掘方法。论文的主要研究内容和创新性成果总结如下:
1.研究了相关模式挖掘问题,提出了极大紧密相关类簇概念和挖掘完全极大紧密相关类簇的算法。
本研究从实际应用问题出发,提出了极大紧密相关类簇的概念,并且基于枚举树的数据结构,设计了高效的逆序搜索枚举树生成极大紧密相关类簇完备集合的IOET算法。紧密相关类簇是数据集中两两之间具有较高相关度的模式组合,这些模式组合代表数据集中的各种相关模式。而极大紧密相关类簇是紧密类簇的简洁表示。针对不同的应用,我们可以通过不同的相关度定义,发现不同类型的相关模式。在本文中,我们主要研究了以Pearson系数作为相关度量的具有一致变化趋势的相关模式,探讨了Pearson系数所具有的特殊性质以及Pearson系数与Euclidean距离之间的等价性,并利用这种性质对算法进行优化。
2.研究了在大数据量情况下,相关模式挖掘的近似算法一核心聚类分析方法。
在有些应用(例如基于数据立方体的0LAM应用)中,我们需要较快的响应时间,但是并不一定需要准确的完备结果集合。因此,我们提出了挖掘极大紧密相关类簇的近似算法,称为核心聚类方法。在核心聚类模型中,我们定义了核心切片集和边界切片集。同一核心切片集的任意两个切片的相关度大于阈值,并且任意两个不同核心切片集中的切片相关度小于阈值。利用核心切片集和边界切片集,我们可以构造极大紧密相关类簇完备解的上界。算法实现主要利用了局部优化的启发式搜索策略,将算法复杂度由指数阶0(2)降至平方阶0(n<2>),使算法具有良好的实用性。 3.研究了对“购物篮”数据的相关模式挖掘问题,提出了紧密相关项集概念及其高效的挖掘方法。
对于“购物篮”数据,传统的基于“支持度一置信度”框架的关联规则挖掘利用单个项的支持度进行剪枝,因此只能发现“频繁项”之间的关联关系,却不能发现“罕见项”之间的关联关系。本文提出了基于“相关项对”的紧密相关项集模型,并且设计了求近似解的高效挖掘方法。紧密相关项集是一种特殊类型的紧密相关类簇,其数据元素是取值为“0”或“1”的二值变量,代表数据项是否出现。我们用Cosine作为相关度量函数,研究了二值变量Cosine度量的概率意义,说明紧密相关项集具有较为合理的概率解释。另外,我们研究了项对的相关度与单个项支持度之间的约束关系,在算法RSC中计算相关项对时利用单个项的支持度对搜索空间进行剪枝。为了解决复杂度为NP-complete的求完备紧密相关项集问题,我们进一步利用相关度函数Cosine的性质,通过调整最小相关度阈值方法构造完备结果集的上界。基于概率统计模型,我们分析了RSC算法效率并且通过实验加以进一步验证。
本研究以发现数据集中的相关模式问题为核心,研究了三种不同的挖掘方法。从总的方面看,这三种方法解决同一类问题,即数据集中相关模式的挖掘问题。分开来看,这三种方法分别具有不同的设计目标,针对不同的数据类型,各有不同的应用范围。通过实验,我们可以看出本文所提出的方法是实用且高效的,与该研究领域的同类其它算法相比,具有明显的优势。