论文部分内容阅读
时间点过程是一种重要的时空数据表达方式,它是一系列代表事件发生时刻的点组成的序列。随着卫星定位技术、无线通信、跟踪检测设备及视频实时采集技术的快速发展,人们能够方便地以低廉的价格获得大量时间点过程数据。由于每一个时间点过程都对应一个对象,并代表该对象的行为过程,对大量时间点过程进行聚类可以将相应对象化分为不同的类并识别每个聚类中的具体模式。
为了将事件发生时刻相似的点过程划分到同一类,并确定这种点过程发生时刻相似性的具体模式,需要使用合适的相似性度量方法。按照相似时间区间来划分,主要有五大类相似性度量方法可以用来度量时间点过程的相似性,分别是时间全区间相似,全区间变换对应相似,多子区间对应相似,单点对应相似以及无区间对应相似。尽管其中大多数能够度量事件发生时刻的相似性,然而对于识别类中的具体模式(“热点区间”序列)并无太大帮助。只有离散Fréchet距离(简称DF距离)具有发现类中“热点区间”的潜力。
针对上述问题,本文提出了一种基于DF距离的混合连接层次聚类方法(简称DF距离层次聚类方法)对时间点过程进行聚类分析。该方法分为五步:(1)构建点过程间的DF距离相似矩阵;(2)根据相似矩阵构建聚类层次树;(3)根据预先定义的阈值将点过程聚为不同的类;(4)确定每个类中的“k热点窗口”,(5)确定每个类的“k热点区间”,并识别出每个类的具体模式。
本文首先在数学上证明了该方法具有识别类中具体模式(“热点区间”序列)的能力,然后通过对模拟点过程数据的聚类分析,验证了该方法能够有效地发现预先定义的具体模式;最后应用该方法分析气象站点和人口迁移两组真实点过程数据,聚类结果再次验证了DF距离层次聚类方法能够有效的识别点过程事件发生时刻序列的位置相似性,并且清楚地表达出其中的具体模式,如气象站点异常高(低)温模式和人口迁移模式等。
本文采用的DF距离层次聚类方法其创新之处在于:(1)该方法能够将点过程分成不同的组,更重要的是,它能够确定每个聚类的“热点区间”的位置,通过热点区间序列可以解释聚类的具体模式;(2)通过混合连接的方式,使得层次聚类结果不受数据输入顺序的影响;(3)本方法只需要一个参数,即划分聚类的阈值,该阈值实际上是用户希望识别的某些特殊事件模式的时间尺度。