论文部分内容阅读
过去的十年时间见证了互联网的快速发展和改变,许多的社交网络媒体,包括博客、论坛、微博等一些社交媒体如雨后春笋般的出现,这些社交网络媒体把人们聚集在了一起并赋予了相互协作和相互交流新的形式。从数据挖掘的观点来看,社交网络由数量庞大的用户以及用户之间的联系聚集到一起形成了一张巨大的由许多个社区构成的网络。随着互联网技术的快速发展,社区发现技术正在迅速向前迈进。在现实生活中,社区发现技术也得到了广泛的应用,例如,网上商店根据用户的购物行为以及购物后的评论互动的这些集体智慧来更加精确有效的推荐商品;政治运动也可以从社交网络媒体所带来的新的参与方式和协作方式中获得利益;再比如微博中的某一个用户散布了一个谣言,最后谣言信息在微博上病毒式地扩散,怎样根据这样一个信息的动态传递而在最快时间内找到造谣者或者怎样利用社交网络结构更好的抑制谣言的传播?这些实实在在的场景都需要社交网络方面的知识来进行社区发现。本文首先对社区发现技术以及相关理论进行了介绍,主要包括数据抓取技术中的爬虫技术、一些早期的比较经典的社区发现算法以及有关于社区质量评价的一些方法,并对原始的标签传播算法进行了比较透彻的研究,标签传播算法与其它一些社区发现算法相比,具有计算简单和容易实现的优点以致于标签传播算法被广泛的利用。但是基本的标签传播算法存在稳定性低的问题,为了解决这种由随机选择最大数目标签的节点而引起的不稳定性的问题,这篇文章提出了基于节点相似度的标签传播算法和基于关键节点的标签传播算法,并将基于节点相似度的标签传播算法和基于关键节点的标签传播算法对dolphins、lesmis、polbooks、football以及所采集的豆瓣数据集进行了实验,通过实验结果,我们验证了基于节点相似度的标签传播算法和基于关键节点的标签传播算法对于基本的标签传播算法中的稳定性不足的问题有所改进。