论文部分内容阅读
随着移动互联网的高速发展,移动设备越来越普及,时间和空间的限制被打破,微博互动性强、消息即时性高的特点得到了充分的发挥,越来越多的用户将微博看作信息获取、分享故事、表达观点的不可或缺的平台。随着时间的推移,海量的数据在微博平台上沉淀积累,这些数据中蕴含着丰富的研究价值。微博主题挖掘可以提取出微博文本中隐含的主题,准确的主题挖掘为微博分类、舆论分析、个性化推荐等研究提供了坚实的依据。然而,经过观察发现,微博平台中存在着大量文本主题模糊的微博,直接对这些文本进行主题分析往往效果不好。为了准确挖掘出这类博文的主题,本文在对博文和评论的观察分析的基础上提出了一种主题模型CBMB-LDA,该模型建立在博文和评论的关联关系上,可以同时对博文和评论进行建模。CBMB-LDA模型分为两部分:博文处理部分、评论处理部分。在博文处理部分,博文只含有一个主题,来自用户主题分布,同时设有背景主题来过滤高频背景词汇的影响;在评论处理部分,评论同样只含有一个主题,和博文主题一致,同时设有额外主题来过滤垃圾评论的影响。本文采用真实的新浪微博数据对CBMB-LDA模型进行了有效性验证。本文采用评价指标Perplexity和Score来度量模型的有效性。首先对模型本身提取出的主题进行人工分析,发现主题含义明确,主题中的高频词汇划分合理;然后将模型和TwitterLDA模型进行对比实验,结果是在Perplexity和Score两个指标上CBMB-LDA模型均有更好的表现,表明CBMB-LDA模型具有较好的泛化能力和主题提取能力。从实验结果可知,CBMB-LDA是可用的,能够提取文本主题模糊的博文的主题。本文的创新点主要有两点:第一、以博文和评论的关联关系为基础建立主题模型CBMB-LDA,用于挖掘文本主题模糊的博文的主题。评论是基于博文而产生的,因此评论可以作为博文的上下文,使博文的主题明朗化。第二、为评论引入额外主题来过滤垃圾评论的影响,同时为不同用户设置不同的额外主题。由于评论中的垃圾主题有些是有用户针对性的,往往表达了其他用户对博主的态度。为不同用户设置不同额外主题可以提取出这部分信息,不仅可以减少其对博文主题挖掘的影响,也能为垃圾评论的分析和控制提供依据。CBMB-LDA模型的不足是只对博文和评论的关系进行了建模,没有考虑微博中其他类型的关系,在后续的工作中还有待进一步的研究。