论文部分内容阅读
随着互联网的普及,web2.0社交媒体对人们的日常生活产生了巨大的影响,同时生成了海量的网络舆情文本。这些舆情文本如论坛帖子,实时反映当前网络舆情的热点话题,具有丰富的话题内容信息。因此,如何对舆情文本进行在线主题建模,实时挖掘出话题信息并进行话题热度计算与预测具有重要的研究意义。然而现有研究对话题的热度计算中忽略了舆情文本的主题组成情况并且现有的预测模型对话题热度的预测能力较差,因此本文提出了一种基于VOLDA主题模型和ESG预测模型的话题热度预测方法。本文首先研究了在线主题模型与时间序列预测方法的相关理论,将其作为本文的研究基础。其次在OLDA模型中引入主题相似度矩阵来去除非相关时间片主题影响,构建了可变在线LDA模型(Variable Online-LDA,简称VOLDA)。此外考虑到时间序列一般由多个时间序列模块组成,本文提出了ESG(EEMD-SVM-GMDH)预测模型用于时间序列分解预测。之后,本文设计了基于上述两个模型的话题热度预测方法,提出了结合主题模型和热度指标的话题热度计算方法,利用VOLDA模型自动获取话题及其热度时间序列,并利用ESG模型对其进行预测。最后,本文爬取天涯论坛帖子构建实验数据集进行实验,实验证明本文提出的模型与方法是有效且可靠的。具体的创新点有:(1)本文构建了VOLDA主题模型和ESG预测模型。VOLDA模型去除了主题内容演化矩阵中当前主题无关的时间片,从而避免了主题演化受无关主题的影响,提高主题跟踪能力;ESG预测模型将时间序列进行了分解,并将分量预测结果加权累加得到最终预测值,更加充分利用了原始时间序列信息,提升预测效果(2)提出了基于VOLDA和ESG的话题热度预测方法,结合主题信息和外部热度特征更加合理的定义了话题热度并在VOLDA主题建模过程中自动获取话题及其热度时间序列,最后采用ESG模型分解预测以取得较好的预测效果。