论文部分内容阅读
当今世界,数据日益增长,在大量的数据中隐藏着许多重要的信息,如何发现有价值的信息或知识是一项非常艰巨的任务。数据挖掘就是为了满足这种要求而迅速发展起来。数据挖掘就是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。关联规则按处理对象的不同可分为布尔型关联规则和多值型关联规则。布尔型关联规则挖掘是在属性值为布尔量的关系表中发现属性值同时为“1”的属性之间的关系。然而在现实中,事务数据库中包含的属性还有多值情况,因此研究如何挖掘多值关联规则具有重要意义。本文就数据挖掘中的多值关联规则挖掘进行了一些研究,研究内容主要包括:提出了一种新的多值关联规则挖掘算法MQAR,该算法结合频繁项集挖掘中的FP-tree和高维数据聚类算法CLIQUE,设计了一种树形结构DGFP-tree来存储事务数据库中的信息,并通过搜索树中路径来挖掘存在聚类的低维子空间,从而将多值关联规则挖掘问题转化为创建DGFP-tree、利用该树搜索高密度单元、形成聚类的过程。该算法避免了传统多值关联规则挖掘算法中的“最小支持度”和“最小置信度”问题,且能够挖掘出部分属性之间的关联规则。实验结果表明该算法能有效地挖掘多值关联规则。针对多值关联规则挖掘过程中属性离散化方法的不足和组合爆炸等问题,提出了一种基于模糊聚类和互信息的多值关联规则挖掘算法FMI-Miner。该算法首先采用模糊C均值聚类算法进行多值属性的离散化,然后根据离散化属性间互信息的大小来挖掘频繁模糊项集以产生关联规则。实验结果表明,算法FMI-Miner有效地减少了挖掘过程中的计算量,提高了算法的性能,并且挖掘出的多值关联规则更容易让人们理解。