论文部分内容阅读
随着社交网络的快速发展,越来越多的人们通过新浪微博平台发布、获取信息,从而研究某段时间社会的舆论,人们关注的话题和对某话题所持有的观点态度以及该话题事件是如何在社交网络中传播,人们在信息传播中所扮演什么样的角色,如何使话题在社交网络中传播的更广等问题,具有着越来越重要的社会和商业价值。然而,微博文本短小、形式多样、语法不规则,还带有很浓的用户态度倾向性,以及很强的实时交互性,从而使用传统的话题检测和信息传播模型来分析,无法准确的进行研究。因此,本论文采用了概率图模型方法来进行研究,提出了两种基于概率图模型的话题检测和信息传播的算法模型——动态情感-话题检测概率图模型(DST)和特定话题的用户决策传播概率图模型(TUDIN)。动态情感-话题概率图模型是一种在LDA概率图模型的基础上,采用多种概率统计方法,融合情感和时间两种社交网络属性所建立的贝叶斯图模型,通过可观测到的单词、文档、时间变量来推测隐含的情感、话题变量,忽略了数据缺失、文本短小、语法不规则的影响,增强文本单词间的关联性,提高了话题检测和情感倾向分析的准确率。实验结果表明,与现有的一些模型对比,DST模型具有较低困惑度评测指标,验证模型性能优势。特定话题的用户决策传播概率图模型,是一种生成型的概率图模型,融合用户在信息传播中扮演的社会角色特点和信息传播行为特征,使用Gibbs抽样方法,在历史的信息传播数据上进行模型估计学习。仿真实验验证,相比现有的几种传播方法-IC模型、支持向量机模型,TUDIN模型极大的提高了传播精度,验证了模型性能。