论文部分内容阅读
链路预测问题是数据挖掘和知识发现领域的一个开放性问题,吸引了来自不同研究团体的研究人员的关注。链路预测的研究对于理解现实世界的网络类系统的组成和演化具有深远的科学意义。另一方面,优秀的链路预测算法在不同的领域具有广泛的应用,例如生物网络中鉴定可能的蛋白质-蛋白质相互作用、在线社交网络中为用户推荐潜在的好友、在电子商务系统中提供个性化的推荐服务。 本研究主要内容包括:⑴从信息论的角度重新审视了网络结构在预测缺失链接中的作用,并提出了一个基于信息论的链路预测模型来同时利用多种结构特征。根据提出的模型,我们利用一种刻画节点的局部结构,即邻居集合,提出了一个叫做邻居集合信息(NSI)的预测指标。根据我们的实验结果,和其它的相似性指标相比,NSI指标在十二个真实网络中表现良好。以NSI指标为例,我们还给出了关于信息论模型的深入讨论。⑵根据局部网络结构带来的互信息提出了一个适用于加权网络的加权互信息模型,它同时充分利用了结构和权重信息。我们在四个真实网络中进行了实证实验,结果表明相较于传统的无权指标和典型的加权指标,提出的模型能够提供更准确的预测。进一步地,我们从另外一个角度揭示了弱链接在链路预测中的影响。⑶根据一种网络的局部结构,即节点的邻居集合,设计了一种权重预测方法,并在两种情况下评估了该方法的预测效果。在第一种情况下,一些连边连同它们的权重同时缺失;而在第二种情况下,所有的连边都存在只有部分连边的权重缺失。在六个真实网络的实证实验表明我们的方法在这两种情况下均能够给出准确的连边权重预测。