论文部分内容阅读
已有的时序数据挖掘方法主要关注于时序数据在取值和时间两维上的总体信息,其知识生成过程主要是基于总体的、最显著的、全局的序列变化形式。但是对于很多数据挖掘问题,在取值维上细微的或在时间维上局部的序列变化形式往往蕴涵着另一种有用的知识。在取值维上,从时序数据中抽取出最符合领域特征的细微序列形式对更精确且更高效地分析时序数据是很有意义的。在时间维上,挖掘出只存在于某些时间段的知识与对应的有效时间段一方面可以发现新的知识,另一方面也可以更精确地表达知识本身。
本文对面向部分信息的时序数据挖掘进行了系统的研究,涉及的工作包括:1)对基于分解的数据挖掘问题进行了研究。具体包括:定义了时间序列的部分信息表示模型;给出了部分信息的抽取表示方法和相似度量方法,并证明了该方法类的有效性;提出了一种部分信息的有效性度量方法与部分信息的选择策略;最后,给出了时间序列的细微相似查询方法,并以此说明了基于分解的数据挖掘的实现方法。实验表明:较已有的基于全部信息的方法,本文给出的方法可以得到更符合领域特征的结果;同时,在以领域特征作为效果衡量准则的前提下,改写了一些常用的结论。
2)对局部序列模式挖掘问题进行了研究。具体包括:提出了实际应用中广泛存在的局部模式的表示模型与频繁度量模型;针对该问题,提出了一种索引结构——LP树以支持对公共子序列在局部区间的高效定位与计数,并给出了相应的模式挖掘算法;提出了一种可以将空间消耗限制在一定的域值之下,并且时间消耗线性增长的分段挖掘策略。实验结果表明该算法可以生成符合问题定义的局部序列模式,并且其效率较其他可用的数据挖掘方法有显著提高。3)对挖掘模式分布问题进行了研究。提出了一种基于已知模式或挖掘结果,发现并表达模式在数据集中的分布情况的方法:包括分布表示模型、分割选择策略和基于该策略的挖掘方法,该方法的时间消耗呈线性增长,并且可以在线挖掘。实验证明了它的有效性。