论文部分内容阅读
在网络中,节点表示实体,链接表示它们之间的关系。随着越来越多真实网络数据的获得,通过对网络的分析来挖掘一些有价值的规律成为研究热点。作为链接挖掘最重要的问题之一,链接预测,即根据观察到的节点和链接信息,来估计两个节点之间存在链接的可能性。在众多应用的推动下,链接预测的研究取得了丰硕的成果。目前采用较为广泛的是基于节点相似度的方法,通过相似性分数的大小,预测产生链接的可能性。相似度的计算主要包括基于网络拓扑的方法与基于节点属性的方法,此外社区信息也被证明有助于链接预测。上述静态链接预测方法曾在某些领域取得了不错的效果,但是在现实世界中,网络往往是动态变化的。静态方法里,网络随时间的变化被忽视,如果只采用最近一个时间快照下的网络图,网络变化比较频繁时,预测效果就会急剧下降;如果把历史上各时间快照下的网络图叠加,则不能用于链接重复发生的情况,如电话、邮件等通信链接。随着互联网的发展,链接重复发生的场景越来越广泛,网络的演化越来越普遍,静态链接预测方法已远远不能适应新形势下的需求,因此,近些年时间信息逐渐得到重视。目前,针对链接预测问题的研究,主要有两个方向,一个方向是继续完善静态方法,充分提取当前观察到的有用网络信息,包括拓扑信息、属性信息、社区信息等;另一个方向是给空间结构加上时间维度,考虑如何利用网络随时间的变化,更好地完成预测。时间序列在描述时间信息上取得了较好的效果,将历史上各时间段的网络信息表示为离散的时间序列图,并进行链接预测,主要有两种方式。一种是节点间链接次数的时间序列,仅仅根据节点间过去的链接次数预测未来的链接情况,取得了与静态方法类似的结果,将其与静态方法相结合,能进一步提高预测效果。这种方法的优势在于,考虑链接历史上出现的次数而不是是否出现,时间序列模型较好地利用了链接的变化情况及最近时间的链接信息。同时,混合模型将静态方法预测新链接的能力与时间序列预测重复链接的能力结合起来,是一种较为全面的方法。这种方法存在的问题是,对于新链接,由于失去了链接次数时间序列,混合模型就降级成了静态相似度方法;此外,混合模型将最终的静态方法预测值与时间序列预测值相乘,难以描述每个时间段的网络信息。另一种时间序列方法做出了改进,采用节点相似性分数的时间序列,根据节点间历史上各时间段的相似性分数,预测未来的相似性,从而预测链接情况。这种方法也尝试将节点间通过整个网络计算的相似性分数与节点间真正发生的链接次数结合,混合模型将每个时间段的相似性分数与链接次数归一化后相加,以此作为时间序列的输入,然后以一元时间序列预测值作为未来链接发生的分数。但是,由于模型过于简单未能描述相似性分数与链接次数的关系,两者的变化规律不同,混合模型得到的结果反而不如仅仅采用相似性分数时间序列。针对以上不足,本文提出了一种新的基于节点相似度和链接次数组合时序的链接预测方法SOTS(Similarities and Occurrences Time Series)。首先通过有趋向的随机游走,计算历史各时间段节点间的相似性分数,然后采用时间序列模型将其与各时间段节点间的实际链接次数组合起来,预测下个时间段各节点对发生链接的可能性。通过两种组合时间序列模型,本文研究了节点间相似性分数与实际链接次数的关系。该方法能够用于演化网络中未来新的链接以及重复出现链接的预测。本文贡献如下:(1)采用一种新的方法将属性社区与网络拓扑组合起来,计算相似性分数。(2)研究了链接的形成与相似性分数的关系。(3)将相似性分数与链接次数有机结合,充分提取每个时间段的信息。尤其是二元时间序列模型的结合方式,有效描述了二者随时间的协同演化。通过对时间序列与静态信息的分析,我们将网络结构的时间、空间两个维度结合起来。该方法比传统方法利用的网络信息更加全面,模型更加有效,经过详实的实验,本文在中文DBLP数据集上评价了该方法与前人方法的预测效果,实验证明,该方法提高了约15%的预测准确度,达到了本文工作的预期目标。