论文部分内容阅读
自然语言是人类沟通与交流的主要方式,以表象的符号表示高度抽象的语义信息。作为人类几千年知识与智慧的结晶,自然语言组织结构复杂,语义表达形式多样。词、短语、句子、段落、文章等都有其各自独有的特点,同时彼此之间也存在着潜在的联系。让模型能够充分理解自然语言,是人工智能完备性问题的重点研究内容之一。要实现这个目标,首先需要解决的问题就是如何表示自然语言的语义。现阶段,基于分布式假设的词向量,以及基于超大规模的语料库与超大规模网络结构的预训练语义表示模型已经取得了优异的成绩。但自然语言的语义理解与表示仍面临着情境信息利用不充分,模型结构复杂,内部机制难以解释等诸多挑战。为此,本文提出利用情境信息来辅助自然语言的语义理解与表示,从情境信息的选择,情境信息的利用以及文本的处理等方面展开深入研究,最终提升模型表示自然语言语义的能力。本文工作与贡献可以概括如下:首先,提出了情境信息丰富的词语义表示方法与情境感知的双重注意力的句子语义表示方法。传统基于分布式假设的词向量表示方法用一个固定向量来表示语义信息,这会导致词义模糊、表达不准确。为此,本文分别从词级别和句子级别对自然语言的语义表示进行研究。一方面,针对词的语义表示缺乏合适情境信息的问题,基于不同情境信息揭示的是词的不同方面语义的发现,通过在大规模语料库中选择不同类型的情境信息训练词向量,实现对词语义更全面的表示。在此基础上,针对具体应用,设计了一种可扩展性良好的神经网络结构,根据具体的语义关系利用注意力机制选择最适合的语义向量表示,实现了对词语义的全面表示与高效利用。实验结果表明本文提出的方法能够显著提高词蕴涵识别的准确率。另一方面,针对句子语义建模过程中情境信息缺失的问题,本文还选择多模态数据(图像信息)作为句子情境信息的补充,利用图像注意力构建句子语义的丰富表达。在此基础上利用句子注意力实现句子之间的语义交互建模,两者相互结合,最终实现句子语义的全面建模与句子语义推理关系的准确识别。在大规模公开标准数据集上的实验也验证了本文提出的方法的有效性。其次,提出了情境信息多层次利用的句子语义表示方法。多模态情境数据(例如图像信息)能够丰富文本的情境信息,但多模态数据形式多样,与句子语义之间存在不同层次的关联。为此,本文从句子语义表示角度提出了图像增强的多层次语义表示框架。分别从词级别、短语级别、句子级别利用图像信息增强对句子语义的准确理解与表示,提升模型表示句子语义以及识别句子间语义推理关系的准确率。更进一步,考虑到图像信息更多的展示视觉特征,与自然语言表达的高度抽象语义存在巨大差异的问题,本文深入研究了图像情境信息的使用方法,提出了一种自适应的图像语义特征抽取器,利用图像的描述句子抽取细粒度的图像语义特征,并设计实现了一种多层次图像增强的语义表示框架。通过融合粗粒度的预训练图像视觉特征与细粒度的图像语义特征实现图像信息的高效利用,进而更为准确地表示句子语义,提升模型的语义表示能力。多个自然语言推理公开标准数据集上的大量实验也证明了本文提出的方法能够有效利用图像实现对句子语义全面准确地表示。最后,提出了情境感知的句子动态阅读表示方法。自然语言是人类最主要的沟通交流方式,因此人类的一些自然语言行为对研究其表示方法有重要的指导与借鉴意义。为此,本文通过借鉴人类阅读习惯,提出了动态阅读的自然语言句子语义表示方法。具体而言,该网络能够根据已掌握的信息动态选择当前状态下最需要关注的一个词,实现对句子中动态变化的重要内容的准确识别。在此基础上,通过不断循环该过程,实现对整个句子语义的准确理解。除此之外,考虑到自然语言的语义表示高度依赖情境信息,情境信息的缺乏会导致语义表示的模糊、不准确。因此,本文提出了局部感知的动态重读网络,在动态重读网络每次只选择一个最重要的词的基础上更进一步,同时选择出帮助理解该重要词的局部情境信息,通过两者的结合,保证对选择出的重点词的准确理解,从而进一步提升模型理解与表示句子语义的能力。多个句子语义匹配任务上的多个不同公开数据集上的大量实验充分证明了本文提出的方法能够准确掌握句子中动态变换的重点内容,实现句子语义的准确理解与表示。