论文部分内容阅读
基于用户时空数据对用户间社交链接进行预测(即预测任意两个用户之间是否有社交链接)是重要的研究方向之一,吸引了大量学者对其进行研究和探索。本文提出了一种新的预测用户社交链接关系的方法,该方法充分挖掘了用户的共现特征,有以下三个创新点:1)针对传统方法基本上只注重用户与地点共现特征而忽略用户与时间共现特征的问题,本文提出了一种基于主题模型Latent Dirichlet Allocation(LDA)的特征提取方法,不仅能够获得用户与地点的共现特征(Co-location Feature),还能同时获得用户与时间的共现特征(Co-time Feature)。研究发现,经常在相同的地方或者相同的时间发生签到行为的用户间存在社交链接关系的可能性较大。根据每位用户在各个地点出现的频率,通过LDA深层挖掘用户的主题特征(即用户与地点的共现特征,Co-location Feature)。该主题特征本质上是由用户与地点的共现产生,从而充分刻画了用户与地点的共现信息。同理,根据每位用户在各个时段出现的频率,通过LDA模型获取用户的主题特征(即用户与时间的共现特征,Co-time Feature)。在Brightkite数据集中,基于LDA的特征方法预测用户社交链接关系的(Precision,Recall)最高可达(72.6%,72.7%)。在Gowalla数据集中,基于LDA的特征方法预测用户社交链接关系的(Precision,Recall)最高可达(75.8%,66.4%)。2)LDA没有同时考虑用户签到的时间特征和空间特征,它是一种粗粒度的特征提取方法。因此,本文还提出了一种基于词向量算法word2vec的细粒度共现特征提取方法,该方法同时考虑了用户签到的时间特征和空间特征。通过该方法可以获得用户与相同地点最近时刻签到用户的共现特征(Co-location-time Feature)和用户与相同时段最近邻签到用户的共现特征(Co-time-location Feature),该类特征同时考虑了用户签到的时间特征和空间特征。在Brightkite数据集中,该方法与基于LDA的社交链接预测方法相比,其Precision和Recall分别提高了5.3%和6.4%。在Gowalla数据集中,其Precision和Recall分别提高了11.9%和10.4%。3)为了能够充分利用共现特征预测用户社交链接关系,本文提出了基于决策融合的用户社交链接预测的方法,将LDA模型产生的Co-location特征和Co-time特征所预测的社交链接强度和word2vec产生的Co-location-time特征和Co-time-location特征所预测的社交链接强度融合(即决策融合),获得融合的决策特征。实验证明,在Brightkite数据集中,该方法与基于LDA的方法相比,其Precision和Recall分别提高了7.1%和8.2%;该方法与基于word2vec的方法相比,其Precision和Recall都提高了1.8%。在Gowalla数据集中,与LDA方法比,其Precision和Recall分别提高了14.8%和13.0%;与基于word2vec的方法比,其Precision和Recall分别提高了2.9%和2.6%。目前,Entropy-Based Model(EBM)预测的用户社交链接关系实验效果最佳,其在Gowalla数据集上(Precision,Recall)最高可达(80%,70%),而本文提出的基于决策融合的社交链接预测方法的(Precision,Recall)最高可达(90.6%,79.4%)。因此,我们提出的预测用户社交链接关系的方法比EBM模型的方法的预测结果的精确率和召回率分别提高了10.6%和9.4%。