论文部分内容阅读
随着科学技术发展的全球化趋势,科研合作成为科学研究的主流方式。近年来,随着复杂网络受到的广泛关注,科研合作网络,作为社会网络中的一种,成为进行科研合作研究的重点领域。在大数据时代的背景下,海量数据为科研合作网络的研究提供了有力的支持。科研人员合作关系的判别和预测是科研合作网络中一个最基本的问题。如何利用科研合作网络中的信息和科研人员自身的内容信息预测未来可能发生的合作行为具有重要的意义。传统的链接预测技术可以予以借鉴,但其效率和准确率有待提高。本文从科研合作网络的独特性出发,结合社会资本理论,提出科研合作影响因素的结构维度,关系维度和认知维度的分析框架,基于SVM的分类链接预测算法进行了改进,实现了科研合作网络上高效率和高精度的链接预测。 本文的主要研究成果如下: 第一,本文总结并分析了科研合作网络和链接预测方法的研究现状,针对于复杂网络,科研合作网络中的一些主要工作进行总结和归纳分类,指出目前研究的不足。 第二,本文结合了结合社会资本理论对科研合作的影响因素进行了研究。结合社会学理论和机器学习的方法对社交网络进行挖掘是当下流行的研究热点。科研合作网络是一种社交网络,社会学理论包括同质性理论,链接强度理论,社交平衡理论等都为合作网络中的链接预测提供了理论依据。本文在探究影响科研合作的因素时,结合社会资本理论,从科研合作网络中的网络结构维度,科研关系维度和基于研究兴趣匹配的共同认知维度进行对科研合作的影响因素进行量化与分析。科研网络的结构维度,主要从基于邻居和路径的拓扑特征中提取相关的合作特征,此外,社区是网络中一类重要的拓扑特征,在全局的社团发现信息之上,拓展了基于共同邻居的链接预测指标。在科研关系的维度,针对于科研人员机构的合作关系和科研人员之间的信任关系进行了研究,分别在机构合作网络上和信任网络上构造相关的链接关系预测指标。在科研认知维度上,通过一元语言模型和作者主题模型,实现了科学研究兴趣的精确匹配。 第三,本文提出了基于FV-SMO算法的新型链接预测分类方法。科研合作网络上链接关系的高效解决和准确预测是本文的一个重要目标,SVM是解决链接预测分类问题的一个重要的模型。但是,在处理大规模的网络数据时,SVM存在运算效率低的问题。针对该问题,本文引入了一种SVM高效的求解算法FV-SMO。在求解SVM最为流行的序列最小优化算法基础上,通过拓展工作集方法,在每次的迭代过程中同时选取四个变量进行优化,并通过相应的定理保证了子问题具有解析解,该算法大幅度降低SMO的迭代计算的次数,得到了效率的提升。同时,为提高链接预测分类模型的准确率,设计了粒子群优化算法对FV-SMO中的核参数和惩罚因子进行优化,达到了准确的分类精度。 第四,本文通过Web of Science爬取的信息系统相关专业出版论文收集了本文的数据集,构建了科研合作网络。通过1∶1均衡抽样和1∶50非均衡抽样的方法得到链接预测的数据集。实验分为三个阶段,第一阶段FV-SMO的效率验证,针对于真实科研合作网络的数据集,FV-SMO比较传统的算法大大提高了运算的效率。第二阶段,对科研网络结构维度,关系维度和认知维度的影响因素分别构建链接预测的分类器,实验结果显示三个维度的量化指标均有较好链接预测表现,验证了方法的合理性。第三个阶段,集成考虑所有维度的合作特征,并对比其他的分类算法,实验结果充分说明了所提出的分析框架和方法能够有效地实现链接关系的准确预测。