论文部分内容阅读
热点事件是人们关注的重要信息。随着互联网的发展,Web数据,比如新闻网站或者微博网站,已经成为人们获取热点事件信息的重要数据源。因此,在互联网环境下进行事件侦测和话题追踪是有效组织热点事件相关Web数据的基础,也是更好满足用户信息需求的前提。 目前,国内外对于事件侦测和话题追踪的研究已经积累了许多成果。比如基于新闻广播报告的离线和在线的事件侦测算法。然而,这些研究大部分都关注非互联网环境,没有考虑到互联网环境下Web数据类型多样、数据量大、数据具有半结构化特点等许多新的问题,因此也无法直接应用从Web数据中进行事件侦测和话题追踪。为此,本文分析了互联网环境下进行事件侦测和话题追踪的各种问题,提出相应解决方法,并通过原型系统的设计和实现来验证提出方法的效果。 本文学习的事件侦测和话题追踪算法都是基于Web数据的,与传统的方法相比,有以下三个特点。首先,由于Web数据类型多样,文本首先选取了新闻网站作为事件侦测和话题追踪的数据源,并通过集成用户微博数据,提供话题和事件更加全面的信息;其次,由于Web数据规模大、更新速度快,本文提出的方法更加注重算法效率方面的考虑,做到能够从海量的Web数据进行高效而实时的事件侦测和话题追踪;再次,本文利用新闻页面的半结构化信息,更有效的计算新闻页面之间的相似度,进而更好的支持事件侦测和话题追踪算法。 在数据抓取和算法实现的基础上,本文实现了原型系统。原型系统能够对抓取的数据进行实时的存储与索引,并且在事件侦测和话题追踪的基础上实现了话题和事件的自动摘要、相关用户微博信息的集成以及事件演化图的构建等功能。