论文部分内容阅读
随着互联网技术的飞速发展,社交网络成为了信息发布、信息共享的重要途径,海量的微博数据中包含着丰富的信息,记录着社会上发生的热点事件和人们的评论。如何从中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件显得越来越重要。 微博包含了海量的针对各种话题的数据,微博会对每个话题跟踪,当用户点击某个话题想要了解该话题的详情时,微博返回给用户的却总是确定的几篇微博,究其原因是因为热度高的微博排在前面,从而更容易让更多用户看到,并更多地参与转发、评论和点赞,这样热度就越高,导致对事件的关注点越来越集中,而用户对于该事件内部涉及到的不同方面没有系统全面的了解。传统的对于拐点事件的检测大多是基于词频的,即统计一段时间内频繁出现的词语并进行归纳总结。但是这些方法存在一些问题,文档中出现的高频词不一定能说明有拐点事件产生,同样有些拐点事件的产生也并不会被广泛热议,或不能由几个高频词代表,不会引起词频的激增。因此,基于词频的频繁出现进行拐点事件的检测具有一定的局限性。并且现有的关于子话题的提取方法大多采用的是固定的时间粒度,但是对于不同类型的事件而言,时间粒度很难一次性选择合适。 针对以上问题,结合主题提取和词频统计的技术,我们提出了一种交互式可视分析方法,通过对热点事件子话题演化过程进行不同粒度的展示,比较相邻时间区间子话题词分布的变化,发现关于某些子话题的拐点事件,进而利用词项共现图在微博原文中找到具体信息。其中,用户可以在交互过程中发现更优的参数配置,从而更加有效地分析拐点事件,并理解热点事件发生的全过程。在真实的数据集上进行了试验,并与传统的基于词频的方法和Leadline的方法做比较,验证了此方法的有效性。