论文部分内容阅读
                            
                            
                                移动终端和定位技术的发展,使得随时随地获取移动对象的精确位置成为可能。将单个移动对象的一系列时间上相关的位置信息联系起来就形成了移动轨迹。移动轨迹中通常包含丰富的时空信息,通过合理的挖掘和分析可获得有价值的信息。由于移动轨迹中可能包含参与者的许多隐私信息,恶意攻击者可根据非法获取的移动轨迹推测出各类其感兴趣的事件和位置。为保护轨迹数据隐私,在轨迹数据发布前,需使用适当的隐私保护技术对轨迹数据预处理。目前常用的方法分为两大类:1.修改原始轨迹,降低轨迹在空时中的精度(例如,降低记录轨迹的分辨率或在轨迹中插入噪声),以达到保护隐私的目的,缺点是数据失真严重,可用性低。2.对轨迹匿名化处理,即使用假名(具有唯一性的随机标示符)替代参与者的真实身份。且参与者的真实身份无法通过任何方式与假名相关联。这种匿名化处理方法具有容易实现、计算开销低、不改变原始轨迹数据,获得最大的数据可用性的优点,因而被广泛采用。然而,尽管假名技术消除了所发布轨迹中参与者的身份,却并不能够有效地保护参与者的位置隐私。这是因为:1.每个参与者的运动轨迹具有其固有特征(模式),且短期内不会发生巨大变化。2.匿名轨迹发布后,参与者的运动仍然会持续发生,其在公共场所的运动或者踪迹可以通过各种方式被他人观察到。例如,攻击者可以对其攻击目标实施一段时间的跟踪,或从社交网络、博客等边信息(sidechannel)中推断出攻击目标的位置。之后,攻击者将其获得的攻击目标的轨迹或位置与其可访问的匿名轨迹集合中的轨迹进行特征比对,就可从匿名轨迹中唯一或高概率地识别出其攻击目标的轨迹。本文提出一种移动轨迹数据去匿名攻击方法:攻击者首先分析匿名轨迹数据集中不同移动对象移动轨迹的时空特征;然后可通过观察或其他方式获得攻击目标任意时间段的若干移动轨迹片段,并与所得移动轨迹的特征相比较,从而从匿名轨迹集合中识别出攻击目标的轨迹。为验证此类攻击的可行性,设计了两种去匿名攻击,并使用真实轨迹数据(上海与深圳出租车数据)测试了去匿名攻击的准确率,揭示了匿名轨迹数据的隐私风险。提出了基于路段偏好的去匿名攻击方法。首先,对匿名轨迹中的路段偏好进行了分析,然后提出一种改进的tf-idf方法构造轨迹特征向量,用于攻击者所持有轨迹与匿名轨迹集合中轨迹的匹配。对路段偏好的分析,本文发现不同车辆轨迹之间的路段偏好存在明显的差别,而相同车辆轨迹之间又存在共同的特征。通过该方法,能让上海和深圳轨迹去匿名化的准确率分别达到70.65%和50.96%。随着测试轨迹长度的增加,可以使得准确率分别达到94.81%和74.24%。提出了基于停车事件的去匿名攻击方法。使用k-means和svm技术,从车辆行驶轨迹的复杂停车事件中抽取反映驾驶员行为特征的停车事件,并据此构造轨迹特征向量。通过实验验证,对上海和深圳的匿名轨迹数据,基于特征停车事件的去匿名攻击能够分别达到48.58%和39.66%准确率。随着攻击者所获得攻击目标轨迹长度的增加,准确率可达到85.22%和66.67%。最后,使用多分类器组合技术进一步提高去匿名准确率。用实验分析了几类常用多分类器组合方法的效果。结果表明,通过多分类器组合,匿名攻击准确率可进一步提高。