论文部分内容阅读
随着自然语言处理和文本挖掘技术推陈出新,快速发展,人们的需求也日益升级,给搜索引擎、深度问答等应用带来了新的挑战和机遇,对文本处理技术提出了更高的要求。应对挑战的方法主要是精准的语义分析技术。在现有的语义分析研究中,主要针对词汇级别、短语级别和句子级别的语义进行深入挖掘,篇章级别的语义分析研究目前尚未成熟。本文从篇章级别的语义分析角度出发,通过引入篇章外部的信息对文本内容进行补充,弥补计算机对篇章内容相关背景信息的缺乏这一问题,更好的完成篇章的语义分析。本文针对外部信息引入文本内部这一问题提出了三种模型,统称为联想模型,分别是基于序列迭代的联想模型、基于权重传播的联想模型和融合句间关系的联想模型。联想模型的设计结合了认知心理学和人类的阅读习惯、思维习惯以及信息检索领域经典算法,实现了对大量外部信息进行筛选,挑选出与文本语义更契合的一部分外部信息引入文本中。在引入外部信息之余,本文还将引入的外部信息应用在文本分类这一传统任务上,和未加入外部信息的方法相比取得了更好的结果。联想模型主要包含文本表示、知识表示和模型算法这三个方面。在文本表示方面结合认知心理学中的“可教的语言理解者”(Teachable-Language Comprehender,简称TLC)模型设计出了基于序列迭代的联想模型,结合“激活扩散模型”设计出了基于权重传播的联想模型。此外本文还关注到了篇章内部结构对引入外部信息的重要性,结合篇章结构分析中的句间关系识别和中文上主流的CDTB语料库,利用简便易行的句间关系识别方法,识别篇章结构,并将篇章的结构信息加入文本表示方案中,提出了融合句间关系的联想模型。在知识表示方面,本文采用目前大型语义知识库通用的三元组的表示方法,利用“Argument-Relation-Argument”这样的三元组表示知识概念。通过隐含狄利克雷(LDA)模型对词进行向量化,并将词向量整合成三元组的向量表示,最后将三元组表示为连续的实数向量的形式。在模型算法方面,文本结合了序列模型和图模型这两种经典模型,并借鉴Page Rank算法和标签传播算法(LPA),完善联想模型的算法。通过控制联想模型的参数实现对效果的调优。综上,本文从利用外部信息辅助理解篇章语义的角度出发,结合认知心理学、文本挖掘的经典算法,提出篇章联想模型,并在文本分类的任务上验证外部信息对文本语义的有效性,为篇章的语义理解提供了可行的解决方案。