论文部分内容阅读
复杂网络的现代科学理论为人们更好地理解复杂系统带来了重大变革.近年来关于复杂网络结构和动力学方面的的研究工作大量涌现.复杂网络模型已经成为物理学、生物学、计算机科学、社会学等很多领域中的流行工具.网络可以表现真实系统的特征之一就是社团结构,即整个网络由若干个社团构成,属于相同社团的节点之间具有许多边相连接,而属于不同社团的节点之间具有较少的边相连接.这样的社团可以被看作是复杂网络的相当独立的分量,起着类似于人体中的组织或者器官的作用.由于许多真实的系统通常表示为网络的形式,从而社团检测在很多学科中具有重要意义.这一问题十分复杂,尽管在过去几年中来自不同领域的科学家致力于此问题的研究,并做出了大量相关工作,但是至今仍未圆满解决。
在社团结构检测中,动力学方法是一类强而有力的方法,它的构造是基于研究在复杂网络上某种与结构相联系的动力学过程而建立的.在这个分支中,通常采用的模型是网络上的随机游动.如果网络具有很强的社团结构,那么随机游动者将花费很长的时间待在一个社团中,这是由于社团内部的边的高密度进而导致路径数量也很大所引起的.在本论文中,作者主要研究的也是一类基于随机游动的动力学方法.本论文的基石是最近由E,Li和Vanden-Eijnden发展的基于Hilbert-Schmidt度量粗粒化可逆马氏链的理论框架(Proc.Natl.Acad.Sci.USA105(2008),7907-7912),作者进一步发展并完善了由此理论所建立的复杂网络社团结构的确定性分区方法,所得到的主要创新成果如下:
(a)提出了复杂网络社团结构的一个概率性框架,其中每个节点以某一概率从属于某一个社团.这可以看作是统计中的fuzzy c-means算法向网络分区问题的自然扩展,也可以看做是之前的网络最优分区的确定性框架的推广.提出的算法成功地应用于几个具有代表性的算例.概率性框架为网络分区问题的研究提供更详细的信息.更重要的是,它比传统的网络确定性分区方法更具有预测性能。
(b)设计了一个基于有效性指标(validity index)的方法来实现确定性分区的自动模型选择.提出的有效性指标函数可以为社团结构的优良程度提供一种度量,它是由两个因素的乘积所定义的,分别是每个分区的社团内部紧密程度(compactness)与社团间分离程度(separation).数值试验表明算法在降温过程中可以有效找出社团结构,并且无需任何关于社团结构的先验信息就可以自动确定社团的个数.算法的matlab程序可以从网上免费下载使用,下载链接为:
http://dsec.pku.edu.cn/~tieli/software/SAVI.zip。
(c)分别利用结合了两种k-means迭代的模拟退火方法来最大化模量(modu-larity),以实现确定性分区的自动模型选择.这两种k-means分别基于相异性指标和扩散距离.算法可以得到较之许多已有方法更大的模量的值,从这个意义上来说胜过了许多已有的方法.算法不仅可以确定社团的个数以及社团结构,还可以给出每个社团的中心节点。
(d)构造了实现网络概率性分区的自动模型选择的方法.提出了模糊模量(fuzzy modularity)函数,它可以看作是传统模量的一个推广,并为网络模糊社团结构的优良性提供了度量.算法可以有效确定每个节点属于不同社团的概率,并且初始的模糊分区可以随机选取,社团的个数也可以自动确定而不再是将其固定为已知的模型参数。
本文提出的社团检测方法具有一般性,可以推广到许多其它的复杂网络和数据集,并且可以应用到更广泛的实际问题中。