论文部分内容阅读
自动摘要是自然语言处理领域的一项重要任务,它不仅要求把握原文的语法结构特点,还需要理解原文的内容。为此,本文进行了计算语言学领域内一项研究,提出一种词汇集聚关系构造方法用于改进的词汇链构造算法,并将构造的以词汇链形式表现的文本集聚结构作为理解文本中重要内容的线索应用于单文档自动摘要;同时对多文档集,研究了应用融合集聚和连贯分析于多文档文摘生成的方法。本文主要从如下几个方面进行了研究。 当前文本处理方法中存在孤立考虑各当前文本处理方法中存在孤立考虑各关键词、忽略词间语义关系的问题,为解决这些问题,本文研究了文本集聚结构的构造方法。该方法首先基于词汇资源HowNet构造词汇集聚关系,然后通过将该关系作为词间关联标准的词汇链构造算法导出篇章集聚结构,从而得到实际的文本内容的表达,以准确有效地进行知识发现。在改进的词汇链构造算法中,利用了更多词条及词条间关系,提出了HowNet中多义项消歧的算法,并根据知识库的特征来确定链构造规则等,使其更适合于文本的处理。利用两种不同词汇资源的集聚方法的结果显示了文本中词汇链接的可理解性、可计算性,词汇链很好地指示了文本结构和主题。 为进一步改进文摘的质量,本文将集聚结构作为文本主题的线索,研究了基于集聚的中文单文档自动摘要方法。随着自然语言处理技术的发展,提出了许多单文档自动摘要方法,但文摘的提取仍存在浅层线索特征缺乏严格的判断标准、统计特征不易确定其边界、深层知识难以获取等问题,生成的文摘质量仍然难以令人满意。所研究的方法不需要难以获取的深层知识,并且即使在浅层特征没有出现在文章中时,也能检测到文章的重要内容。评测结果显示,该方法生成了具有良好流畅性和连贯性的指示性文摘,基于该方法的系统性能在精确率和召回率上比基于原词汇链方法的系统性能有明显提高,系统具有较好的通用性。此外,还分析比较了采用不同词汇资源HowNet和同义词词林的自动摘要系统的性能。 互联网的海量信息增加了人们对快速、准确地获取有用信息的需求,为进一步改进现有的多文档自动摘要技术,本文将以词汇链形式表现的集聚结构和以话语线索短语形式表现的连贯结构用于多文档自动文摘的生成。其中,文本连贯分析是依靠关系类型集匹配文本片断和使用一个预先定义的优先级等级。该方法依据概念频率而不是词频作为重要性的一个辅助判断,并基于词汇语义进行语义相似度计算。由于多篇文档中的词汇转换,这样的方法能减少多文档文摘的冗余度并增加其信息量。在评测实验中,我们不仅依靠F-度量值进行定量评测,还使用人类专家来主观评测方法生成的文摘。结果显示,所提出的摘要方法能更好地捕获多文档的内容和主题并适应于各领域文章,其性能明显好于传统的首句抽取的摘要方法的性能。