论文部分内容阅读
复杂系统由大量的个体构成,这些个体是动态的、自组织的,且随时间不断演化。许多真实世界的复杂系统都可以表示为复杂网络。在复杂网络中,节点代表智能个体,边是个体之间的关系。复杂网络的实例包括互联网、交通运输网络、引文网络、食品网络、蛋白质相互作用网络、基因调控网络,等等。复杂网络可以用于对不同领域的许多问题进行建模,相关研究往往是跨学科的。复杂系统的一个主要挑战在于,网络中可获得的信息是不完备的,是动态的。为了更好地、更严格地理解复杂系统,我们需要根据已有的信息做可预测的学习,例如链路预测与网络演化机制研究。这项研究的主要贡献体现在三个方面:链路预测的理论研究,链路预测的应用,和网络演化。以下是对这几个方面的总结: (1)我们经过理论研究分析,提出了两种方法来求解复杂网络的链路预测问题。第一种方法的动机来自矩阵补全理论,这里的矩阵是网络的邻接矩阵。给定一个网络,它的邻接矩阵可以分解为一个低秩矩阵和一个稀疏矩阵。稀疏矩阵能够刻画网络中的噪声或者虚假、冗余的链路;低秩矩阵则确定了那些重要的链路,包括丢失的链路以及可能新形成的链路。依赖于矩阵分解技术,我们将网络中的一些冗余链路或虚假链路移除;同时,矩阵分解过程中产生的新的关系,即标注了那些可能是丢失的链路或可能新出现的链路。第二种方法称为链路似然法(link likelihood method,LLM)。该方法首先通过对网络全局信息的训练来获得网络的全局结构,从而从邻接矩阵得到一个权重矩阵。在此基础上,把需要进行预测的邻接矩阵投影到这个训练好的权重矩阵上。最终依此得到的得分矩阵就给出了丢失链路和新出现链路的似然值。通过详实的实验,我们发现本文提出的方法是非常优秀的,它们的性能超过了诸多已有的前沿研究所提出的方法。 (2)我们给出了链路预测的两项应用。首先,本文提出一种求解药物靶向相互作用预测问题的方法,我们将其称之为低秩矩阵投影法(low-rank matrix pro-jection,LMP),该问题可以视为一种特定的二部网络链路预测问题。本方法首先根据多种已经得到的信息,例如已知的相互作用、药物相似性矩阵、靶子相似性矩阵,来学习多个低秩相似性矩阵。然后,我们把邻接矩阵投影到一些低维空间。LMP使用了手工标注靶子和药物的在线资源(manually annotated target and drug online resource,MATADOR),这一步仅仅只知道相互作用信息。该方法还利用了药物和靶子的额外特征信息,例如酶、离子通道、G-蛋白质纠缠受体(G-protein-coupled receptors, GPCR),以及核受体,在使用了这些额外信息以后,本方法的不仅性能表现优秀,而且计算复杂度较已有方法更低,计算速度速度更快。我们将链路预测引入子空间聚类问题,聚类在数据挖掘和模式识别中的一个主要问题。其次,我们的理论分析和实验结果发现,如果预测到的链路更可能出现在类簇中,那么聚类算法就会得到更好的结果。 (3)本文网络演化理论应用于经济数据。我们根据中国证券市场上市公司从2009年到2014年的信息,通过网络建模,考察了联动董事网络的演化。我们依照此数据构建的网络是中国的典型的社交与经济网络。如果两家公司共享至少一位董事,那么它们就建立起了连边。我们发现尽管中国上市公司的数量逐年增加,但是该网络的密度值却在6年内从0.0061减小到0.0033。进一步的,网络的度分布更倾向于服从正态分布,而不是幂率分布。在2009年,网络的最短路径长度大约为11,到2014年已经减小到7,这意味着该经济网络在演化过程中,逐渐具备了小世界的性质。我们发现许多高科技产业的公司更倾向与同为高科技产业的公司发生联系,而其他产业的公司倾向于跟不同产业的公司发生联系。根据在产业上的的相似性,同在一个省的公司倾向于跟其他省的公司发生联系。我们根据以上数据,进一步分析了区域经济发展的情况。我们发现,与经济发展欠佳的省份相比,经济发展得好的省份不但有许多公司,而且公司的类型更加多样化。上市公司的资产的分布一开始服从正态分布,但是慢慢的会收敛到长尾的分布。