论文部分内容阅读
网络技术和信息处理技术的飞速发展,使得人们由信息贫乏时代进入到一个全新的信息极度丰富的时代。面对纷繁复杂、包罗万象的信息资源,人们感到无从下手、难以找到自己感兴趣的信息,迫切需要计算机技术的强力支持,以应对日益加剧的信息爆炸。
话题跟踪研究正是基于这样的需求提出的,它以新闻话题的后续报道流为处理对象,通过判断每篇报道所属的话题,实现对新闻话题后续报道的跟踪。话题跟踪和文本分类相似,但是由于新闻和普通文本的差异,使得我们能够利用新闻中的特征信息改进新闻话题的跟踪性能。在进行话题跟踪之后,可以得到每个新闻话题下的所有后续报道。进一步的工作任务是通过对同一话题下的大量新闻报道文本进行梳理与概括,以简便直观的方式呈现给读者,从而方便读者的快速阅读。
本文在现有研究工作的基础上,针对上述两个研究任务的相关技术进行了探索。研究思路为:对新闻要素进行抽取和分析,改进新闻报道之间的相似度比较算法,从而优化新闻话题的跟踪;在此之后,结合新闻时间要素和内容新颖性对同一话题下的新闻报道进行去冗余,然后通过对报道进行摘要概括,提供了一种高效简便的关注新闻话题的方式。本文的主要工作包含如下四点:
(1)新闻要素的抽取
新闻报道具有时间、地点、人物、事件四要素,据此,我们提出了一种四维的报道表示模型,从新闻正文中,分别对时间、地点、人物、事件信息进行抽取,填充到报道的四维表示模型中,以便进行下一步的报道比对和话题跟踪。
(2)基于新闻要素的话题跟踪
话题跟踪是一个有导的分类过程,其中一个关键点是分类算法所采用的相似函数。针对我们提出的四维表示模型,综合了新闻报道在时间、地点、人物、事件四个维度的相关性,设计了相应的报道相似度比较算法,实现了基于新闻四要素的话题跟踪。
(3)基于新闻新颖性的话题梳理
针对话题跟踪的结果,我们对同一话题下的所有新闻报道进行梳理,通过新闻时间要素和内容新颖性计算模型来进行报道冗余性判定,清理话题中的冗余报道,减少人们对兴趣话题中重复新闻报道的阅读数量,并基于新闻报道时间组织,方便人们的阅读浏览。
(4)基于篇章结构的新闻摘要
新闻摘要的目的是通过对话题梳理后的新闻报道进行概括,方便人们对兴趣话题的快速阅读。我们首先分析新闻文本的篇章结构,然后根据各个主题的轻重、采用统计方法和启发规则来提取关键句、生成摘要。
基于上述思路,本文对话题跟踪和话题梳理与概括两部分任务进行了实验和原型系统搭建。实验表明,本文采用的基于新闻四要素的话题跟踪策略能够提高后续新闻报道跟踪的准确率;而基于新闻新颖性判定和篇章结构摘要的技术能够满足我们对话题梳理与概括工作的设计需求。本文的工作是行之有效的,在这两部分任务中取得了一定的研究成果。