论文部分内容阅读
数据挖掘是研究从大量数据中发现有用知识的理论与方法,它是目前国际上数据库和信息决策领域的最前沿研究方向之一.关联规则是数据挖掘中一个较早的、有意义的研究课题之一.在关联规则的挖掘过程中,频繁模式挖掘是整个挖掘过程的核心,如何有效的挖掘频繁模式一直以来就是研究人员关注的热点.然而在实际应用中,由于挖掘出来的频繁模式数量巨大,从而阻碍了频繁模式的应用.因此,如何对频繁模式进行压缩成为了研究的一个重要方向.本文首先介绍了关联规则和频繁模式的相关概念及基本挖掘技术,随后详细介绍了频繁模式压缩技术,并简要分析与比较了几种有效的频繁模式压缩方法.最后,本文提出了三个基于Top-K思想的频繁模式压缩算法.(1)提出了一个基于Apriori的Top-K频繁模式挖掘算法ATFP该算法沿用了Apriori算法的基本思想,但是在挖掘过程中使用了边界支持度来取代最小支持度,从而实现了对候选项集进行筛选.然而由于该算法依然采用了迭代思想,因此与其它Top-K频繁模式挖掘算法相比效率并不高.(2)提出了一个基于混合搜索策略的改进算法MSTFP.该算法是ATFP算法与Top-K FP-growth算法的结合.算法使用广度优先搜索策略来进行初始项目的挖掘,随后使用深度优先策略进一步对长项集进行挖掘.(3)最后提出了一个基于水平格式的Top-K频繁闭模式挖掘算法TFCP.该算法主要采用类似垂直挖掘的思想来进行频繁闭模式的挖掘,同时使用TFP算法中的限制条件对结果集进行了优化.本文对所提出的算法进行了广泛的性能测试.在UCI机器学习库中的19个数据集以及IBM数据生成器上生成的2个数据集上的实验结果表明,与Top-K FP-growth算法相比,本文所提出的ATFP算法的挖掘效率要略逊一筹.但是改进算法MSTFP在与Top-K FP-growth以及ExMiner算法的比较中,在挖掘速度上的优势非常明显.本文还将TFCP算法与TFP以及CLOSET+算法进行了比较分析,实验结果表明本文所提出的TFCP算法在进行长模式的挖掘时更有效率.这些研究成果为频繁模式在实际问题中的应用提供了一种有效的途径.