论文部分内容阅读
实际应用领域中存在大量的序列数据,这些序列数据中隐藏着丰富的有价值的知识。如何在序列数据库中挖掘频繁出现的序列模式,是序列模式挖掘的重要任务。随着信息技术的高速发展和互联网的迅速普及,序列模式挖掘已成为数据挖掘领域中一项非常重要的研究任务。本文研究的一次性条件约束的序列模式挖掘,是带通配符的频繁模式挖掘问题的一种,是基于传统的模式挖掘问题上的提高,它允许挖掘出的频繁模式中含有通配符并满足一次性条件。引入一次性条件具有重要的理论价值,同时在实际应用中,找到模式P的所有出现有时也是不必要的。因此本文主要针对一次性条件约束的序列模式挖掘算法进行研究,以进一步提高频繁模式的挖掘效率。本文的研究内容和相关工作如下:1.本文研究的一次性条件约束的序列模式挖掘是基于模式匹配技术的,应用网树结构设计了三种算法来计算候选模式的支持度,即Cal-SGSP(Calculating Support with Strategy of Greedy-Search Parent)、Cal-SRMP(Calculating Support with Strategy of Right Most Parent)和Cal-SBO(Calculating Support with Selecting Better Occurrence).Cal-SGSP算法在寻找模式在目标序列的一个出现时,采用贪婪搜索双亲策略,每一步都寻找当前结点的一个近似最优双亲;Cal-SRMP算法则采用最右双亲策略,每一步寻找当前结点的最右双亲结点作为当前该模式的一个出现位置;Cal-SBO算法则择优使用两种策略,寻找相同叶子结点的两个出现并选择出现相关数最小的作为候选模式的一个出现,最后返回候选模式的支持数。2.给出了基于网树结构的一次性条件约束的序列模式挖掘算法的框架。通过调用以上三种应用网树结构的模式匹配方法计算候选模式在给定的序列上的支持数,最后以此来判定该模式是否是频繁模式,形成了三种一次性条件约束的序列模式挖掘算法,即SGSP-Mining,SRMP-Mining和SBO-Mining算法。同时为了避免待检测的候选模式过多,算法采用Apriori性质进行剪枝,以减少对候选模式支持数的计算。3.选取有代表性的数据集和对比算法,设计了大量的对比实验,从算法的挖掘结果和挖掘效率两方面对实验结果进行了分析,验证了本文提出的三种算法的有效性。