社交网络中社团发现机制的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ZLF308440423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂网络一般是指节点数量多且节点间交互关系复杂的网络。社区结构是复杂网络的拓扑特点之一,整个网络由若干社区构成,社区内部节点的交互频繁,社区间节点的交互较弱。如何从复杂网络中解构出社区结构,已成为复杂系统研究领域中一大热点。随着网络规模的逐渐增大,特别是Facebook、Twitter、微博等社交网络的崛起,复杂网络的规模指数上涨,不仅对社区发现算法的计算复杂度提出了苛刻的要求,同时也引入了对算法并行化的要求。在不考虑重叠社区的情况下,虽然目前已经提出了一些线性时间复杂度的算法,但由于这些算法通常采用较为激进的贪婪策略,因此在网络规模较大且稠密的图拓扑中结果并不可靠。在重叠社区发现算法中,现有方案通常需要经过多次计算来获得最佳的社团数,计算开销过大。同时,由于文献中多数社区发现算法均不具备并行能力,无法基于分割后的局部点集实现算法逻辑,这将很难满足复杂网络下海量数据的计算需求。基于此,本文分别针对非重叠社区和重叠社区,提出两个社区发现算法,以满足在大规模网络分析中实现高效并行计算的需求。本文针对相关程度矩阵的计算,提出了一种基于节点动态阈值调节的优化方式,不仅解决了现有算法收敛速度较慢的问题,同时引入了节点自身特性辅助阈值设置,提升了算法准确性。在权重设计方面,考虑原算法中相关程度矩阵各个组成部分的重要程度不同,进行了有区分度的权重设置,并增加了算法对加权图的支持。针对非重叠社区,提出了两个社区发现算法:基于关键节点的社区发现算法CKE(Community Detection based on Key Nodes Extracting)和基于谱聚类的社区发现算法SKC(SpectralKMeans Cluster based Detection)。CKE算法为了解决原算法中将连通组成部分作为社区结构导致社区间错误合并的问题,引入了点介数算法辅助筛选出关键节点,利用关键节点在多个社区间起桥梁作用这一特性,将其作为划分社区的分界节点,结合BFS算法实现非重叠社区。通过仿真可以证明,CKE算法能够准确找到关键节点,得到有效的社区划分。SKC算法则是利用了聚类思想,通过谱聚类将相关程度矩阵转换为效用矩阵,以完成社区划分。针对现有算法中K值和初心难以预估的问题,引入Canopy聚类辅助设置。针对重叠社区,提出了两个社区发现算法:基于点聚集的社区发现算法CCO(Core-clique Combination Optimization detection algorithm)和基于扩散标记的社区发现算法IMB(Iterative diffusion Markbased on high-Betweennes)。CCO算法以发掘高内聚度的点聚集为核心,通过在其上提取重叠节点完成社区发现。常规的重叠点发现策略通常以聚类密度进行判定,其计算复杂度较高,针对这一问题在CCO算法中提出了简化的解决策略。IMB算法则是通过扩散标记思想实现重叠社区的发现。为了保证不同规模的社区结构均能被提取,IMB算法引入了基准阈值?作为标准,利用其能够度量节点与邻接节点间紧密程度这一特性,实现扩散标记。通过仿真可以看出,在少量的几轮迭代标记后,即可获得较好的重叠社区划分结果。针对大规模网络分析中实现高效并行计算这一需求,需要为算法建立以节点为中心的并发模型,结合图的分割思想,引入分布式计算框架,才能取得较好的社区划分结果。因此,本文还探讨了如何在Hadoop上分布式执行上述几种算法,实现社区划分。
其他文献
第一性原理计算方法可以模拟材料的晶体结构以及计算材料的各种物理性质,为相关材料的制备提供理论依据。本文基于密度泛函理论的平面波赝势法,对CuXSe2(X=B,Al,Ga,In,Tl)晶
由于方柱绕流在现实生活中有很多实际应用,例如水流绕过桥墩,海上钻井平台,风绕过高层建筑物等。流体流过障碍物产生交替的漩涡脱落,会在物体上形成相关的脉动力,引起结构震
近年来,随着复杂网络数量的不断增多,复杂网络所涉及的领域不断扩大,对复杂网络性质的研究已经成为一门非常热门的课题。复杂网络通常具有一定的社团结构,即社团内部的关系紧
在复杂网络科学领域,人们通过对复杂网络的静态性质和动态特征的研究,提出了很多刻画复杂网络的指标和分析计算方法。然而,随着网络规模的不断增长,这其中有很多算法由于时空
本文主要研究了串联形式下,一个上游绝缘圆柱(直径d)对下游恒温圆柱(直径D=0.04米)产生的空气动力学和传热方面的影响°其中直径比d/D为0.4、0.6、0.8、1.0,间距比L*=L/D从1.
飞溅流动是一种非定常气液两相流动,此类流动中气液界面的运动十分复杂。近年来针对这类问题的数值研究越来越多,但精细描述飞溅流动的数值方法并不成熟,尤其是针对大尺度飞
谣言的传播一直以来都对人们的生活和社会的安定带来极大的影响。随着信息时代的来临,谣言在网络中的传播速度越来越快,传播范围越来越广,其破坏力和影响力已经超过了以往任
作为肥胖和胰岛素抵抗之间重要链接的脂肪组织特异性分泌因子抵抗素Resistin,可以降低胰岛素敏感性,抑制胰岛素刺激引起的葡萄糖摄取,其内在的机制受多种信号途径的调控。Ker
本文主要研究带有震荡系数的多尺度椭圆型问题,这类多尺度问题在科学和工程研究中的应用非常广泛.由于问题中包含多尺度特征,模型方程必须要在小尺度下进行求解才能抓住解的
本文主要描述了在变化的间距比L/d=1.0~8.0和直径比d/D=0.2~1.0(L是上游圆柱的圆心到下游圆柱前滞点的距离。d是上游圆柱的直径,在8、16、24、32和40 mm等几个尺寸中变化,但下