论文部分内容阅读
轨迹数据挖掘是当前的一个热门话题。自2014年郑宇等人系统地提出“城市计算”(Urban Computing)的概念后,更多的学者纷纷参与到该方面的研究。如今,随着智能交通的普及,交通信息采集传感器遍布各地。通过传感器获取地理标记的时间序列数据越来越方便,交通数据量也高速增长,这为交通轨迹信息挖掘提供了研究的基础数据。卡口数据是一种重要的交通数据,该数据由分布在道路上的高清摄像头采集,每当有车辆经过时,摄像头记录下该车辆的通行情况。但由于设备灵敏度问题、识别不准确以及设备损坏等情况,通常会出现地理位置定位跳跃、数据丢失等问题。这样的数据不仅影响交通的实时控制,而且还会降低进一步数据分析的性能。针对该问题,本文提出了时间敏感的双向马尔科夫模型(Time-sensitive Bi-directional Markov Model,TBiMM)用于修复轨迹数据的缺失点。马尔科夫模型是一个常用的统计模型,也有不少研究将该模型用于时序数据的修复。传统的马尔科夫模型只考虑了单边的信息,即待预测点的前置信息或后继信息。而本文所采用的数据是全部的数据,缺失点位于中间位置,双边的数据都是已知的,所能利用的信息也更加全面。所以本文采用双向马尔科夫模型,提出了四种不同方向组合(RR、RL、LL和LR)的马尔科夫模型,综合四种模型来考虑缺失点的双向信息。时间是轨迹数据中一个重要的因素,为了加入时间信息,我们将一条记录的位置信息和其对应的时间段结合到一起,将此作为马尔科夫模型的一个状态。为了方便检索这样的状态,本文提出了一个状态索引结构,将一个记录的位置信息的二进制码和其对应的时间段的二进制码拼接到一起,作为状态的二进制码,其对应的十进制数即为状态的编号,通过这个编号也能够反向索引其对应的位置和时间段。利用该状态索引结构,本文最终实现了 TBiMM,该模型在修复缺失点时,不仅能够预测缺失点位置,还可以预测发生缺失点的时间段。本文在真实数据集上将TBiMM与其他几个基本模型做比较。实验结果表明,本文提出的模型有效地提高了轨迹修复的效果,并且能够有效地预测缺失点所发生的时间段。本文的主要贡献有以下几点:(1)提出状态索引结构,以此结合时间和卡口信息,实现从时间和卡口检索到状态以及从状态反向检索到时间和卡口。在该结构的支持下,本文的模型不仅可以预测缺失点的位置,还可以预测产生缺失点的时间段;(2)利用四个不同马尔科夫模型综合考虑缺失点的双向信息,并通过投票机制结合四个模型的决策结果;(3)在真实数据集上模拟具有不同缺失率的轨迹数据集,对比在这些数据集上对各模型的性能。实验结果表明,本文所提的TBiMM模型优于其他基线模型。