论文部分内容阅读
随着互联网上的文本信息的爆炸式增长,网络在提供了信息获取途径的同时却给人们带来了如何在每天都不断涌现的海量信息面前更快速、准确地获得有用的信息的难题。为了缓解这种矛盾,许多研究人员在文本挖掘、信息抽取和信息检索方面付出了很大的努力。然而,传统的信息检索技术在有效获取有用信息方面作用有限,这对如何有效地提炼各种文本信息中的知识提出了挑战。作为一种能从海量信息中快速、准确地获取有用信息的手段,自动文摘技术越来越引起人们的重视,尤其是如何从海量的Web话题信息中提取文摘内容的多文档文摘技术作为一个新的研究点,引起了研究界和产业界的广泛关注。
Web话题带有内容多元性、动态演化性等特点,由此给Web话题的多文档文摘方法的研究带来了众多的挑战。面对Web话题分析的挑战,本文首先分析了Web话题的特点,再从面向话题的多文档文摘方法的研究入手,分别从文摘计算粒度和话题表示两方面进行了文摘性能优化的研究,同时针对面向Web话题动态演化性的文摘需求,开展了动态多文档文摘的研究。本文主要的工作与创新性贡献如下:
首先,针对面向话题的多文档文摘方法的颗粒度选择的问题,在文档结构分析的基础上,本文提出了一种基于图的子话题划分的多文档文摘算法GSPS。GSPS方法是一种基于话题的逻辑结构优化的多文档文摘方法,采用了一种类似层次Markov链的模型,来解决Web话题内容多元性环境下的文摘对象颗粒度选择的问题。
接下来,针对面向话题的多文档文摘方法的话题表示偏差的问题,采用半监督学习中的集成学习思想来进行多文档文摘的研究,在文摘性能与话题表示之间相互增强关系的基础上,本文提出了一种多模型自适应的多文档文摘模型AdaSum。AdaSum借助Boosting的学习框架,可以很自然地利用话题与文摘间的相互增强关系,达到话题表示与文摘性能同步优化效果。AdaSum相对于几种基本文摘算法(MRP、LexRank等)能取得显著性的性能改进,同时与DUC2007实际系统相比也相当具有竞争力。
随后,针对Web话题动态演化的特点,本文基于时序分析给出了动态文摘任务的形式化定义,并在此基础上提出了一种时序内容过滤的动态文摘模型TCFM。本文给出了一种在句子和词项两种粒度上来解决动态信息识别和动态信息重要性度量的思路。依据这个思路,本文分别提出了采用内容过滤方法在句子层次上进行动态信息的获取和利用时序话题标志特征在词项上进行时序环境下动态信息度量的方法。最后,结合这两方面内容提出了一种一体化的动态文摘模型TCFM。在DUC实际语料上与最优系统的性能对比表明TCMF能取得明显的性能改进,同时TCFM在TAC2008的Update Summary的实际评测中分别在BE、ROUGE和Pyramid三大指标上取得了优异成绩,尤其在更新文档集上更是在三项指标上都取得了最优。
本文最后把上述研究成果应用于Web话题分析,并详细地给出了面向Web话题分析的多文档文摘原型系统Grasper的设计方案和系统实现。