论文部分内容阅读
现实生活中,大量的复杂系统都可以用网络的方式表示,比如人际关系网络,生物网络,交通网络等等。实际网络有几个比较重要的特征:无标度特征、存在明显的社区结构、小世界特征等。本论文中主要讨论了网络中的社区检测方法。随着互联网的快速发展,人类进入了一个大数据时代,每天都会产生海量的数据需要处理,大数据处理中很重要的一个方面就是寻找数据中存在的社区结构,比如在社交网络中,获得社区结构后,便可以将同一社区中但没有直接联系的用户,推荐为好友。对于用户数以亿计的网络,如此巨量的数据完全通过人工处理是不现实的,得益于计算技术的发展,我们可以通过计算机对数据进行处理。这需要开发出高效的算法进行实现,目前存在的网络社区结构检测算法主要有四类:图分割算法、层次聚类算法、基于模块度优化的算法和基于谱的算法。其中基于模块度优化的算法得到了广泛的研究,并且在实际中也有应用。但是基于模块度优化的算法存在的缺陷是,存在分辨率问题,也就是说当社区的尺寸小于某个一定值时,此社区便不能被正确的划分。本论文主要工作如下: (1)在基于层次聚类、谱分析等社区划分算法中,相似度函数是一个最基础的部分,在本论文中提出了基于路径的相似度计算函数,函数中的参数可以根据网络平均度的特征进行自适应调整,为不同路径长度赋予了不同的权值,在最终的相似度中,较好的平衡了离被计算的两个节点远近不同的局部连接信息在最终的相似度中起到的作用,可以在一定程度上避免基于模块度优化的算法带来的分辨率问题,并且基于路径长度的算法,计算量主要集中在邻接矩阵相乘部分,可以很方便的通过GPU、多核等实现并行计算。 (2)传统的密度收缩算法(Dense Shrink)一个比较大的缺点就是寻找微社区步骤耗时较长,并且这一步骤也不方便通过并行计算方式实现。寻找微社区这一步骤在算法中的有效性,实际上跟相似度计算函数及网络中节点的连接状况密切相关,根据网络本身的特征选择合适的相似度计算函数可以替代寻找微社区这一步所起到的作用,不再需要进行此步的迭代计算,提出了不需要寻找微社区的DSMCF(Dense Shrink Micro Community Free)算法。 (3)基于社区结构的链接预测。利用模块度密度,通过调整参数,可以获得网络在不同分辨率下的社区划分结果,统计节点在不同分辨率下处于同一社区的频率,然后根据这一频率计算两个节点之间存在链接的概率(不同分辨率下的频率在最终概率中所占的权重不同),概率越高表示两个节点间存在链接的可能性越大。