论文部分内容阅读
移动互联网的发展带来很多的新媒体形式,新闻客户端是其中较重要的一种。与传统的网页新闻相比,新闻客户端具有更高的聚合性和实时性,可定制性更强。随着用户量不断增加,吸引了大量的广告商,形成了新的产业。新闻客户端的操作友好,方便用户在阅读新闻后通过发表评论来参与讨论。评论内容同新闻内容一样,是新闻客户端的重要组成部分,作为UGC(User Generated Content),具有很高的研究价值。由于这种媒体形式较新,所以对新闻客户端的研究工作寥寥无几,尤其以新闻客户端下的评论作为研究主体更是一片空白。本文从新闻客户端的评论出发,对其流行度进行预测。 本文使用评论最终获得的点赞数来定义流行度。现有的Szabo-Huberman(S-H)Model和Multivariate Linear(ML) Model利用数据的早期观测值和最终数据之间的强线性关系进行预测。本文对曝光度和评论内容情绪等能够影响评论的特征进行分析,提出了一种新的思路,将数据本身的特征和研究主体本身的特征结合起来,并依此提出了Hybrid-SH和Hybrid-ML这两个改进的模型,实验证明,改进的模型在早期观测点较靠前的情况下能取得更好的效果,具有较高的参考价值。 在不依赖早期观测数据的情况下,本文提出了一个基于事件的新闻客户端评论流行度预测方法来解决冷启动问题。本方法首先通过事件来预测新闻能获得的总点赞数,然后根据评论的特征估计其相对流行程度,最后得到评论的绝对流行程度。方法分为事件发现和流行度预测两部分,两部分之间松耦合,能够在不同的应用场景下应用不同的解决方案。本文还依据该方法提出了一个实例,证明了方法的有效性,有较高的理论意义。 最后,依据上述研究成果,本文设计并实现了一个新闻客户端数据采集分析系统,包含新闻客户端数据采集、事件发现和评论流行度预测等模块。该系统能够辅助内容推荐和广告投放,尤其是可以根据评论的流行度来评估网民意见,在网络舆情分析等领域具有较高的应用价值。