论文部分内容阅读
社交网络(Social Network)是一类可以帮助用户建立好友关系网络,并且可以在好友间分享爱好、兴趣、活动和状态等信息的网络应用服务。近年来,随着互联网等信息技术的发展,微博、微信等社交网络应用也获得了快速的发展,依靠社交网络强大的信息发布、传播以及分享等功能,社交网络吸引了一大批用户,并对人们的日常生活、工作等方面产生了巨大的影响,因此,在今天研究社交网络既符合时代需求,又是将数据挖掘相关理论与实际问题相结合的实践。 社交网络中用户的分析与挖掘存在巨大的挑战。首先,社交网络用户群体数量庞大,有些网络应用用户节点数达到千万甚至是亿万级别;其次,社交网络用户关系具有多样性,不同主题的网络中用户关系的强度、内容不一致。充分利用社交网络中用户的数据对进行分类和聚类对研究大规模复杂社交网络具有重要作用。 本文以社交网络中的用户为研究主体,针对现有社交网络用户分类算法不能有效利用用户属性和链接信息提高分类性能的问题,设计了一种基于马尔科夫模型的用户分类算法,算法的分类过程包括两个阶段:一、通过学习用户属性信息获得用户的初始化类别标签矩阵;二、利用马尔科夫随机游走模型对标签进行迭代推理获得最终的标签分布情况。在用户聚类方面,现有的网络社区挖掘方法由于单一利用用户属性信息或用户关系数据挖掘社区,无法有效发现用户链接紧密且属性高度相关的社区,本文设计了一种能够集成节点属性和链接数据的社区挖掘算法,该算法基于非负矩阵分解模型并通过矩阵联合近似分解方法统一分解社交网络中用户链接矩阵和属性矩阵,最终获得用户与社区归属关系矩阵以及属性与社区关联矩阵,能够保证挖掘社区不仅链接结构紧密而且属性高度相关。