论文部分内容阅读
时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列,在经济、金融、科学观测和工程等各个领域都广泛存在。时间序列数据反映了属性值在时间或空间顺序上的特征,利用时间序列数据挖掘(Time Series Data Mining,TSDM),可以获得数据中蕴含的与时间相关的有用信息,实现知识的提取。目前时间序列数据挖掘中重点的研究内容包括时间序列的模式表示、时间序列的相似性查询、时间序列的聚类和分类、时间序列的异常检测等。
本文以时间序列的特征提取和聚类为研究主题,讨论了时间序列的距离(相似性)度量问题,研究了时间序列特征提取方法、时间序列的聚类算法、聚类准则等问题。本文的主要研究工作和成果概括如下:
(1)分析讨论了适用于时间序列的距离度量,以及目前常用的时间序列聚类算法,对各种算法的特征做了分析比较。将聚类准则函数引入对聚类效果的评价当中,使得对聚类的研究工作更加清晰易懂。
(2)提出了分段混合特征提取算法。本文在分析和比较了原有的各种时间序列特征提取方法之后,以分段特征提取方法为基础,提出了分段混合特征提取的时间序列特征提取方法,将时间序列总体特征和变化模式引入特征提取当中,克服了现有的分段特征提取方法和其他方法都无法同时客观地描述时间序列的整体趋势和局部特征的问题。
(3)对synthetic control chart time series时间序列数据集进行了特征提取和聚类研究。本文通过实验分析现有k-均值算法和层次聚类算法的聚类效果,讨论以上两种算法直接处理原始时间序列的局限性和问题,分析了只借助距离度量的改进,例如引进DTW距离也无法提高时间序列识别的效率。最后,将本文提出的分段混合特征提取算法引入层次聚类,实验结果显示本文所提出的分段混合特征提取算法能改进时间序列层次聚类的效果,提高了时间序列识别的效率,从而验证了本文所提出的分段混合特征提取算法的有效性。
最后在总结全文的基础上,说明了今后需要继续的工作。