论文部分内容阅读
随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,发展成为一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介,从而使得微博成为社会公共舆论的重要平台,对国家安全和社会发展都会产生深远的影响。微博意见领袖依靠自己的“独特魅力”与网络位置,对舆情的传播起着“推波助澜”的作用。因此,在当今这个互联网的时代,对微博影响力研究具有重要的理论价值和实际价值。对微博的研究也存在巨大的挑战,微博是人类在虚拟网络世界生活的抽象概括和延伸,与一般信息网络不同,微博本身具有大规模性、噪音数据多样性、快速传播演化性、非线性、社会媒体性、以及多关系等特征,因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别,在技术上也带来了更大的挑战。本文在分析了相关工作的基础上,主要针对噪音数据多样性、社会媒体性、多关系性、快速传播性进行了研究,主要研究内容和成果包括:1)针对微博噪音数据多样化特性,研究了基于统计特征与信任双向传播模型的垃圾用户发现方法。由于微博中关注网络的有向特性,提出了有向网络中局部三角形数量统计算法,结合用户博文数量和局部三角形比例发现隐式垃圾用户;针对统计特征方法对垃圾用户误报和漏报的缺点,提出了基于统计特征与信任双向传播算法,综合考虑种子节点扩散和邻居节点特征来保证转移矩阵的随机性,即保证信任双向传播算法为一个各态遍历的马尔科夫过程,最后利用用户的信任传播得分与统计特征决定用户类别。真实的Twitter数据集上验证了本文方法的有效性,结果表明本文方法发现垃圾用户的数量和准确性均高于仅依靠统计特征的垃圾用户发现方法,且发现约83.7%的隐式垃圾用户处于“完全非活跃状态”。2)针对微博数据社会媒体性,研究了基于时间敏感概率产生式模型的影响强度分析方法。由于微博中用户受到影响,通常表现为更加细粒度的词汇生成与流动特性,提出了时间敏感的概率产生式模型,综合考虑微博中的网络关系、博文内容、时间戳。产生式模型包括隐变量话题、显变量词汇与时间戳,假如话题由Dirichlet分布生成,词汇由话题的多项式分布生成,时间戳由话题的Beta分布生成,博文中的词汇是否来自其好友根据Bernoulli分布确定。随后,利用Gibbs抽样学习博文中的词汇来自其好友的概率,计算直接影响强度。最后,本文利用更加细粒度的词汇流动性,综合考虑词汇的时间间隔与多路径影响力传播对间接影响强度建模。真实的Twitter数据集验证了本文方法的有效性,能够更加准确地预测用户将来的转发行为。3)针对微博数据的多关系特性,研究了基于多关系网络的话题层次影响力个体挖掘方法。为了全面度量微博中用户在话题层次上的影响力,综合考虑四种关系类型:转发、回复、复制、阅读。针对复制关系和阅读关系的不确定性,给出了网络内部转移概率计算方法,利用转发关系时间间隔分布拟合复制关系时间间隔分布,发现时间间隔服从负指数分布的特性,根据负指数分布的参数估计来评估时间间隔与复制概率的函数关系,给出了复制关系转移概率的计算模型;利用欧式距离和KL距离分别计算时间序列相似性与个人兴趣相似性,给出了阅读关系转移概率的计算模型。最后,针对多关系网络,提出了一种基于多关系网络的随机游走模型,分别考虑了网络内部的转移概率和不同网络之间的跳转概率。真实的Twitter数据集验证了本文方法的有效性,在一定程度上提高了微博中影响力个体发现的准确率、召回率、F值。4)针对微博的信息扩散快速特性,研究了结合时间与网络位置的影响力扩散能力分析方法。综合考虑四种因素度量影响力扩散能力:1)用户在传播级联中的位置,由于微博的信息扩散快速特性,通常认为在舆论事件发生初期参与的用户具有更强的扩散能力;2)用户影响的其他用户数目,通常认为转发一个用户博文的其他用户数目越多,则该用户具有更强的扩散能力;3)用户影响的其他用户自身的扩散能力,通常认为被扩散能力强的用户传播的用户具有较强的扩散能力;4)用户扩散信息的速度,通常认为用户扩散信息速度越快,扩散能力越强。根据信息扩散时间间隔的负指数分布对扩散信息速度建模;利用每个用户在所有级联树中的子孙节点数目对用户在传播级联中的位置建模。随后,提出了变形的PageRank算法,考虑负指数分布的密度函数计算转移概率;同时,利用用户在传播级联中的位置信息计算自重启向量。真实的Twitter数据集验证了本文方法的有效性,能够更加真实地反映用户在一段时间范围内的扩散能力,且具有较强影响力扩散能力的用户并不一定具有高数量的粉丝或者发布大量博文。综上所述,本文针对微博噪音数据多样化性、社会媒体性、多关系性、快速传播性四个特征,研究了微博的垃圾用户发现、影响强度度量、影响力个体挖掘、影响力扩散能力度量等关键技术,对于微博舆情的分析和挖掘工作具有重要的理论意义和应用价值。