论文部分内容阅读
现实生活中一旦发生重大公共事件,人们立即被源源不断的来自新闻媒体的相关报道所湮没,无法准确地掌握事件梗概与当前热点。面向事件的时序摘要以特定事件为摘要对象,从在线的时序文本流中不断抽取与特定事件相关的重要新鲜句子,并按序加入至事件摘要集合的摘要过程。该任务旨在高效监测用户感兴趣的事件在时间轴上的演变。本文将此任务根据其流程拆解成为两个子问题(在线事件检索问题、面向事件的摘要句子选择问题)分别进行研究。 在线事件检索是针对特定事件,按时间序迭代地在每个时间单元的小批量数据集中进行事件检索,得到每个时间间隔的重要事件相关文档。高质量的检索结果是后续高精度摘要的必要条件。针对此任务,我们尝试使用两类图(事件关键词共现图、融合事件类型的二部图)对事件建模,提出了一种基于事件图的在线检索框架,弥补了传统方法未考虑事件本身特性的缺陷。案例分析表明本文的事件查询模型具有低歧义、事件显著的特点,且事件图能够随事件演变而变化。实验结果表明,上述方法针对事件查询,特别是模糊的事件查询,能够显著提升检索精度。 面向事件的摘要句子选择以在线事件检索在每个时间单元的文档检索结果为输入,挑选文档集中与事件相关的新鲜句子补充至时序摘要集合。该过程直接影响事件时序摘要集合的整体质量。针对此任务,我们使用子模函数摘要框架,以最大化摘要集合的词覆盖为优化目标,融合单词的事件相关性与新颖性两方面因素来度量单词在当前时刻的重要性。实验表明本文方法在准确率、召回率、时效性等方面均优于基准方法。 综上,本论文通过在线事件检索与面向事件的摘要句子选择两个步骤,实现了提升事件时序摘要效果的总体目标。