论文部分内容阅读
Facebook、Twitter等社交类网站的迅猛发展,预示着社会媒体(Social Media)已成为当今网络技术发展的热点和趋势。社会媒体中的用户可以建立各种关系(关注、好友等),从而产生了各种不同的虚拟的在线社会网络。网络中的用户不仅可以发布信息,同时还可以通过共享、转发等行为来传播信息。因此,在线社会网络支撑着信息的发布和扩散。在线社会网络中信息扩散研究可以帮助网络用户获取有用信息、帮助企业推广产品、帮助政府调控舆情,应用价值巨大。本文以真实的在线社会网络数据和信息扩散数据为研究对象,构建了在线社会网络中信息扩散研究的整体框架,并针对研究框架中的用户兴趣描述、信息扩散模型、信息扩散最大化问题、信息扩散和用户推荐相结合等问题展开了研究。本文的研究内容主要包括以下四个部分:传统的信息检索研究中,通常使用词向量来描述用户的兴趣,每个词的权重使用TF-IDF方法来计算。社会化媒体中存在用户、资源和标签这样的三元关系数据,而传统的词向量模型无法充分使用上述三元关系来准确描述用户兴趣,而且词向量方法还存在一词多语义问题。为解决上述问题,本文提出了标签网络模型来描述用户兴趣。在标签网络中,节点代表标签,边代表标签之间的关系。节点和边都是有权重的,代表用户的兴趣度和兴趣间的关联强度。特别的,本文还提出了一种改进的TF-IDF方法来计算标签权重。在Movie Lens和Cite ULike数据集上的实验结果证实了文中提出方法的有效性。信息扩散预测模型可以应用在舆情预警和爆炸性信息识别等方面,具有重要研究意义和应用价值。当前的信息扩散预测模型大多存在两方面问题:一是不具有时间相关的信息扩散预测能力,二是模型训练大都需要耗费较多的时间。为解决这些问题,本文提出了一种新颖的信息扩散预测模型(GT模型)。不同于过去的信息扩散预测模型,在GT模型中,网络中的节点不再被动的受到邻居的影响而执行行为,而是被视为自治的、智能的、理智的个体。用户会计算不同选择下的利益,从而做出理智选择。该模型中引入了时间相关的用户利益,使得GT模型具有了预测信息扩散进程时间动态性的能力。文中创新性的提出了结合全局影响力和社会影响力来计算用户利益的方法。在新浪微博和Flickr数据集上的实验结果验证了文中所提出模型在预测信息扩散时间动态性方面的有效性。当前信息扩散最大化研究基本上都是在无标注社会网络中展开的,这种网络只包含朋友或者信任这类正向关系。然而,信息扩散最大化问题在标注社会网络中的研究仍然是一个有挑战性的并且被忽视的问题。信息扩散最大化研究如果不区分网络用户间关系的极性,将标注社会网络粗略的视为无标注网络,那么用户的正影响力和负影响力都会被误认为正影响力。为解决该问题,本文将信息扩散最大化问题拓展到标注社会网络中,提出了极性相关的信息扩散最大(PRIM)问题和极性相关的独立级联模型,并提出了使用贪心算法来解决该问题。在两个标注社会网络数据集中(Epinions和Slashdot)的实验结果表明,文中提出的方法在解决PRIM问题时要优于未考虑关系极性的贪心算法和其他启发式方法。社会网络主要有两个功能:社会交互和信息扩散。用户推荐研究基于用户的偏好和网络结构帮助用户找到合适的朋友,这就增强了社会网络的社会交互功能。与此同时,用户推荐会促进社会网络中产生新的链接关系,从而加快网络的进化并改变网络结构,而这会直接影响信息扩散,大多数用户推荐方法忽视了这一点。为解决上述问题,文中提出了用户扩散度的概念和计算方法,用户扩散度可以用来对传统推荐算法得到推荐结果进行重排序,从而使得推荐算法可以促进信息扩散。在Email数据和Amazon数据上的实验结果证实了文中所提出的用户扩散度的有效性。此外,本文还提出了可以配合用户扩散度使用的基于超图的用户推荐算法,在新浪微博数据集上的结果表明该方法在推荐指标上要优于过去的方法。