论文部分内容阅读
随着我国信息技术的迅猛发展,微博成为突发事件舆情传播的重要载体,它在突发事件舆情传播中发挥着信息协同传播作用,极大影响了舆情的传播速度和规模。突发事件微博舆情具有无先兆性、无相关性和偶发性特点,舆情爆发后的管理措施在时间和空间上具有滞后性,政府在微博舆情治理中面临挑战。因此,利用海量微博数据及时发现突发事件微博舆情的话题并进行热度预测具有重要的研究价值和意义。 本文以突发事件微博舆情为研究对象,以话题发现和热度预测为研究内容。在总结国内外研究现状、梳理相关理论的基础上,分析了微博舆情传播时间、微博内容、用户参与度和用户关注度因素对突发事件微博舆情的影响,分析并选取了突发事件微博舆情数据属性。在此基础上提出了突发事件微博舆情话题发现模型和话题热度预测模型。在突发事件微博舆情话题发现中提出了K-means-sLDA模型,使用K-means算法对微博文本聚类,基于轮廓系数法和聚类组内平方和法寻找微博文本的最优聚类数K,同时将聚类结果用于微博文本的无标签变量到有标签变量的转化。将K作为sLDA模型的主题数量,对转化后有标签变量的文本使用sLDA模型进行隐含主题提取,从而发现突发事件微博舆情话题。在突发事件微博舆情话题热度预测中提出了改进粒子群和Elman神经网络模型,将突发事件微博舆情话题热度影响因子作为模型输入变量,以发帖量衡量突发事件微博舆情话题热度并作为模型输出变量,构建突发事件微博舆情话题热度预测模型。针对Elman神经网络模型易陷入局部最优的缺点和粒子群算法全局和局部寻优能力弱的缺点,将改进权值粒子群算法用于优化Elman神经网络的初始输入权值和阈值,构建基于改进粒子群和Elman神经网络的突发事件微博舆情话题热度预测模型,使用训练集对模型进行训练,以预测集进行话题热度预测。 通过对比实验验证了本文提出的突发事件微博舆情话题发现和热度预测模型的有效性。微博舆情话题发现方法解决了sLDA模型主题数的确定和微博文本无标签变量的问题,在微博舆情的话题发现中话题识别准确率高;微博舆情话题热度预测方法解决了Elman神经网络在微博舆情话题热度预测中易陷入局部最优的问题,将微博舆情话题热度影响因子加入模型也提高了微博舆情话题热度预测的准确度。