基于节点相似度和链接次数组合时序的链接预测算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:linqingxia15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络中,节点表示实体,链接表示它们之间的关系。随着越来越多真实网络数据的获得,通过对网络的分析来挖掘一些有价值的规律成为研究热点。作为链接挖掘最重要的问题之一,链接预测,即根据观察到的节点和链接信息,来估计两个节点之间存在链接的可能性。在众多应用的推动下,链接预测的研究取得了丰硕的成果。目前采用较为广泛的是基于节点相似度的方法,通过相似性分数的大小,预测产生链接的可能性。相似度的计算主要包括基于网络拓扑的方法与基于节点属性的方法,此外社区信息也被证明有助于链接预测。上述静态链接预测方法曾在某些领域取得了不错的效果,但是在现实世界中,网络往往是动态变化的。静态方法里,网络随时间的变化被忽视,如果只采用最近一个时间快照下的网络图,网络变化比较频繁时,预测效果就会急剧下降;如果把历史上各时间快照下的网络图叠加,则不能用于链接重复发生的情况,如电话、邮件等通信链接。随着互联网的发展,链接重复发生的场景越来越广泛,网络的演化越来越普遍,静态链接预测方法已远远不能适应新形势下的需求,因此,近些年时间信息逐渐得到重视。目前,针对链接预测问题的研究,主要有两个方向,一个方向是继续完善静态方法,充分提取当前观察到的有用网络信息,包括拓扑信息、属性信息、社区信息等;另一个方向是给空间结构加上时间维度,考虑如何利用网络随时间的变化,更好地完成预测。时间序列在描述时间信息上取得了较好的效果,将历史上各时间段的网络信息表示为离散的时间序列图,并进行链接预测,主要有两种方式。一种是节点间链接次数的时间序列,仅仅根据节点间过去的链接次数预测未来的链接情况,取得了与静态方法类似的结果,将其与静态方法相结合,能进一步提高预测效果。这种方法的优势在于,考虑链接历史上出现的次数而不是是否出现,时间序列模型较好地利用了链接的变化情况及最近时间的链接信息。同时,混合模型将静态方法预测新链接的能力与时间序列预测重复链接的能力结合起来,是一种较为全面的方法。这种方法存在的问题是,对于新链接,由于失去了链接次数时间序列,混合模型就降级成了静态相似度方法;此外,混合模型将最终的静态方法预测值与时间序列预测值相乘,难以描述每个时间段的网络信息。另一种时间序列方法做出了改进,采用节点相似性分数的时间序列,根据节点间历史上各时间段的相似性分数,预测未来的相似性,从而预测链接情况。这种方法也尝试将节点间通过整个网络计算的相似性分数与节点间真正发生的链接次数结合,混合模型将每个时间段的相似性分数与链接次数归一化后相加,以此作为时间序列的输入,然后以一元时间序列预测值作为未来链接发生的分数。但是,由于模型过于简单未能描述相似性分数与链接次数的关系,两者的变化规律不同,混合模型得到的结果反而不如仅仅采用相似性分数时间序列。针对以上不足,本文提出了一种新的基于节点相似度和链接次数组合时序的链接预测方法SOTS(Similarities and Occurrences Time Series)。首先通过有趋向的随机游走,计算历史各时间段节点间的相似性分数,然后采用时间序列模型将其与各时间段节点间的实际链接次数组合起来,预测下个时间段各节点对发生链接的可能性。通过两种组合时间序列模型,本文研究了节点间相似性分数与实际链接次数的关系。该方法能够用于演化网络中未来新的链接以及重复出现链接的预测。本文贡献如下:(1)采用一种新的方法将属性社区与网络拓扑组合起来,计算相似性分数。(2)研究了链接的形成与相似性分数的关系。(3)将相似性分数与链接次数有机结合,充分提取每个时间段的信息。尤其是二元时间序列模型的结合方式,有效描述了二者随时间的协同演化。通过对时间序列与静态信息的分析,我们将网络结构的时间、空间两个维度结合起来。该方法比传统方法利用的网络信息更加全面,模型更加有效,经过详实的实验,本文在中文DBLP数据集上评价了该方法与前人方法的预测效果,实验证明,该方法提高了约15%的预测准确度,达到了本文工作的预期目标。
其他文献
代数Riccati方程在不同领域内具有广泛的应用背景,如控制系统理论,随机流体模型,排队模型,微分博弈模型等.因此,对代数Riccati方程有效算法的研究具有重要的理论意义和应用价
积分方程兴起于科学和工程领域中遇到的一些问题.许多初值问题和边值问题都可以转化为积分方程进行求解.积分方程种类繁多,不同类型的方程需要使用不同的求解方法.本文考虑第
随着智能制造的快速发展,纺织行业的智能化水平正在不断提高,纤维绒毛深加工作为纺织企业生产环节最重要的组成部分,直接影响着纺织产品的质量和成本的投入。目前,很多中小型纺织企业还处于人工检测或检测设备精度不足状况,造成自动化检测水平较低。因此,对绒毛深加工过程中现存的关键性问题展开研究,具有重要的意义,能够带来较大的经济效益。针对纺织厂现有的激光测距检测系统,采用了基于机器视觉的检测技术进行替代,设计
根据数据统计,2017年我国已有超过20万大学毕业生正进行着创业活动,有约20%的在校大学生表达出有强烈的创业意向,大学生创业在当下创新创业活动中已经占有了举足轻重的位置,大学生创业者也成为了创业大军中的先锋力量之一。本研究在总结国内外众学者在创业方面的研究基础之上,重点研究中国大学生差错取向、创业自我效能感与创新行为之间的作用关系。以在校大学生为研究对象,对天津几所高校的在校大学生进行线上问卷调
图的染色理论在离散数学中有着非常重要的地位,尤其是均匀染色,如今已被应用于各个领域。最近几十年,有关均匀染色的问题也得到了人们越来越多的关注。如果图G有一个正常的k-
薄膜材料是目前材料科学领域研究的重要课题之一,主要是由于其在国防科技、计算机科学技术和光电工业等领域有着广泛的应用。目前,由金属氧化物(ZnO等)制备的薄膜材料在太阳
徐绍桢(1861-1936)字固卿。其先籍浙江钱塘。清朝光绪年间举人。历任广东、江西、福建常备军统领、广东全省营务处总办、福建省军政局武备学堂总办、福建省军政局武备学堂总
甲基丙烯酸甲酯(简称MMA)是一种重要的有机化工原料及产品,主要用于生产聚甲基丙烯酸甲酯(PMMA)以及表面涂料等,拥有良好的市场前景。甲基丙烯醛(MAL)一步法制MMA作为一种极具潜力的绿色合成工艺路线,高性能催化剂的研制是该工艺的关键,也是目前面临的主要问题。在众多改性催化剂中,疏水性载体聚苯乙烯-二乙烯基苯共聚物(SDB)负载的,掺杂了Pb的Pd系催化剂拥有较好的催化活性。本文采用了密度泛函
近年来,晚清数学的发展以及教学的研究有所进展。而研究晚清数学发展状况最直接也是最有效的方法就是研究课艺。曹汝英(1870—1928),字灿三,广东番禺人。室名直方大斋。晚清
零截尾泊松分布被David和Johnson(1952)首次提出,引起了众多学者的关注和重视,并且在医学和生物科学等领域得到广泛的应用.该分布能够很好的拟合样本中计数取值至少为一次的