论文部分内容阅读
近十年来,伴随全民参与的Web2.0技术的蓬勃发展,虚拟的Web社会网络已经成为人们日常生活的一部分。Web技术的发展和大规模社会网络数据集的可获取性,为社会学和计算机科学的研究和发展提供了前所未有的机遇。
当前,计算机科学研究者在大规模Web社会网络计算领域开展了深入的相关研究:社会网络演化原理是社会网络计算的理论基础;网络结构模式挖掘可以指导大规模网络的采样,评价生成器的优劣,指导应用系统的构建;而社会网络生成器所生成的模拟网络可以辅助网络采样和算法仿真,以便对真实网络的发展情况进行预测;这些社会网络计算的理论和方法还被应用到实际生活中,构造有价值的社会网络应用,开创了新的信息服务模式并改变了人们获取和交流信息的生活方式。
本文从社会网络演化原理探索、网络模式挖掘、生成器模型构建和社会网络应用等四个方面,对大规模社会网络计算进行了研究。首先,从理论层面研究社会网络的发展原理、结构模式和生成器模型。探索了社会网络演化原理,挖掘了动态带权网络结构模式。在提出的演化原理基础上,研究了社会网络生成器。并以挖掘出的结构模式作为评价生成器效果的标准。其次,综合原理和模型,从应用的层面对社会网络计算进行了研究。研究了社会网络计算的理论和方法在在数字图书馆领域和社区挖掘领域的应用。相比于之前的研究,本文的创新之处体现在以下的五个方面:
(1)在社会网络演化原理探索方面,综合社会学研究成果与实际生活经历,提出了基于“团叠加”行为的社会网络演化原理。该原理解释了社会链接形成的机制,阐述了社会网络结构演化的形式。
(2)在社会网络结构模式挖掘方面,基于本文提出的社会网络“团叠加”演化原理,使用MapReduce编程模式,对多个真实世界大规模动态无向带权网络进行了测量。除了确认这些真实网络具备典型的社会网络结构模式之外,如幂律度分布、短的直径等,还发现了“恒定的权值幂律分布”、“恒定的结点强度幂律分布”、“恒定的权值增量模式”和“恒定的权值增量期望模式”等新的结构模式。
(3)在社会网络生成器构建方面,基于本文提出的社会网络“团叠加”演化原理,构造了一个社会网络“团叠加”生成器。并提出了一个高效的团搜索算法:K Edge Weighting Local Search(KEWLS),解决了在大规模网络中,快速搜索团的难题。理论分析和实验验证都证明了该生成器是一个现实可用的社会网络生成器。
(4)在社会网络计算的理论和方法在数字图书馆研究中的应用方面,结合本文研究的社会网络发展原理与模型,对北京大学图书馆“图书借阅网络”和“共同借阅网络”进行了分析和挖掘,详细分析了共同借阅网络的静态和动态结构模式,通过向两类网络添加属性,挖掘出了影响用户借阅行为的因素、北大影响力广泛的学科和学科依赖关系等新知识。本工作获得图书馆界专家的关注,他们认为本工作“在图书馆用户行为研究上,提供了新视角,提出了新方法,具有一定的现实意义”。
(5)在社会网络计算的理论和方法在社区挖掘研究中的应用方面,结合本文研究的社会网络发展原理与模型,提出了综合社会行动者兴趣和社会网络拓扑结构的社区发现方法。对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区。然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果。