论文部分内容阅读
数据挖掘是对所观测的数据集进行分析,以便找到这些数据集中便于理解且有用的某种新规律、新知识。而时间序列作为观测数据集中重要的一类,是按时间顺序排列的数据的集合,广泛存在于金融、医疗和建筑等应用领域中,如股票数据,心电图数据,地震数据等。由于时间序列具有量大、有噪声、高维以及更新快等特点,在过去的研究中,对数据的分析常借助于统计学的知识,且由于序列本身复杂的特性也阻碍了大量学者们对时间序列进行分析研究,现阶段,随着数据呈现指数式的增加,对数据的分析也非常有必要,对时间序列数据进行数据挖掘也已引起了学者们的大量的研究和尝试。本文通过对时间序列的重新描述方法、时间序列相似性度量方法以及包括聚类、分类、异常检测在类的时间序列数据挖掘任务进行分析研究,主要的研究工作如下:(1)提出一种基于区域极值点的时间序列分类方法。通过对时间序列的区域极值点特征进行研究,提出了一种基于区域极值点的时间序列提取策略,并在此基础上利用动态时间弯曲距离度量极值点序列之间的相似性,再将其应用到时间序列分类算法上。该方法能够很好的拟合原始时间序列并实现数据的有效压缩,在分类准确率方面得到良好的效果。(2)提出了一种基于符号化表示的时间序列聚类方法。通过研究时间序列的极值点特征以及序列符号化表示方法,提出了一种极值点符号化的时间序列重新描述方法,得到一系列的符号化序列,通过利用动态时间弯曲距离对符号化序列进行相似性度量,最后将其应用到时间序列聚类算法,该方法能够有效的描述和度量时间序列,在聚类效果上表现较好。(3)提出了两种时间序列异常检测方法。通过对时间序列异常检测方法的研究和分析,将提出的基于区域极值点的相似性度量方法以及基于符号化表示的时间序列度量方法应用到基于局部异常因子的时间序列异常检测算法中,提出基于区域极值点的异常检测方法以及基于符号化表示的异常检测方法,通过对人工合成数据以及实际数据进行实验验证,结果表明两种异常检测方法的准确率均较高。