论文部分内容阅读
零指代消解是自然语言处理任务中的一个重要研究方向,其目的是对文本中的不完整的表述进行补充,进而形成符合要求的没有成分缺失的“完整”文本。在自然语言构成的文本中,同一个相同的实体的表述方式往往是不同的,例如有很多实体以代词的形式存在于文本中。指代消解可以对分散在文本中各个地方的有着不同表述形式的实体或事件之间的关系进行识别,从而更好地对文本中的相关信息进行抽取。指代消解在信息抽取等自然语言理解任务中扮演着关键的角色。零指代是一种特殊的指代现象,广泛存在于中文等代词缺失的文本中。对于这些存在省略(零代词)的自然语言处理表述,人由于有着彼此类似的知识背景是能够很容易理解其中的含义的,但是对于机器来说则十分困难。因此,零指代消解在中文自然语言理解中十分重要。传统的中文零指代消解方法主要采用离散的特征向量作为输入,通过机器学习算法训练分类器,进而对零代词的先行语进行判断。这些方法对人工选择的特征有很大的依赖性,而且由于零代词语义缺失的特性,现有方法在选取先行语的过程中都忽略了语义信息。近些年,随着深度神经网络模型被不断的被成功的应用在自然语言处理领域,分布式的特征表示方法也获得了更多的重视。同传统的机器学习方法相比,分布式表示能够利用深度神经系统,逐层抽象,进而得到适用于指定任务的高层语义表示。本课题旨在通过深度神经网络,针对中文零指代消解任务的特点,提出四种深度学习模型(循环神经网络模型,记忆神经网络模型,注意力模型和深度强化学习模型),从不同角度出发提升中文零指代消解的性能。本课题针对中文零指代消解问题提出以下四个研究点:1.基于循环神经网络模型的零指代消解系统。传统的零指代消解系统主要通过提取句法词法等特征来构建消解器,而往往忽略了语义信息。这主要是因为零代词是没有描述性信息(如性别信息、数目信息等)的,这种信息的不完备性对获取先行语和零代词语义层面的相似度产生了较大的影响。例如,在代词的指代消解中被证明最有效的特征如性别匹配特征、数目匹配特征是无法使用的。针对这一问题,本文提出一种基于循环神经网络的零指代消解模型,利用零代词的上下文的语义信息,将零代词映射到分布式的表示,进而得到其深层语义表示。在对候选先行语的建模过程中,本文的方法能够有效获取其对应的全局信息与局部信息,并利用这些信息帮助零代词进行消解。在国际通用的中文零指代消解数据集OntoNotes 5.0上的实验结果显示,我们提出的基于循环神经网络模型的零指代消解系统的表现明显优于现有的基准系统。2.基于记忆神经网络的零指代消解系统。由于零代词有着天然的描述性信息缺失问题,如何从语义层面表示零代词是十分重要的。在众多的可利用的资源中,零代词的先行语是一种最自然的,携带最多信息的可以用来表示零代词的成分。本文通过引入一个深层记忆神经网络来从候选先行语中学习出潜在的零代词表示信息,并利用这些信息更新零代词的分布式表示,最终得到不同候选先行语的权重,选出零代词的先行语。通过实验,我们证明了记忆神经网络的有效性。3.基于注意力模型的零指代消解系统。在对零代词建模的过程中,常用的方法不能够有效获取不同词对零代词表示的重要程度。但是,在实际情况中,一部分词往往能够携带更多的表示零代词的信息,而另一些词在表示零代词方面并没有贡献。基于这一发现,本文提出了一种基于注意力模型的零指代消解系统,通过注意力机制学习到了不同词在表示零代词时的重要程度,并利用不同权重对零代词进行建模。在标准数据集OntoNotes 5.0数据集上的实验结果表明了添加注意力机制的必要性,我们的基于注意力模型的零指代消解在整体效果上超越所有的基准系统。4.基于深度强化学习框架的零指代消解系统。传统的零指代消解系统都是基于分类的模型。这些分类模型每次只考虑到当前候选词-零代词对的关系,并不能利用其它候选词的决策来帮助分类。同时,对当前词的分类结果并不能对后续先行语的判断有影响。为了解决上述问题,本文提出了一种基于深度强化学习框架的零指代消解系统,将传统的基于分类的系统扩展为序列决策标注过程。本文把一个零代词的所有候选先行语当做序列,利用深度强化学习模型按照候选词的出现顺序选择所有的可能的先行语。实验表明,基于深度强化学习的零指代消解系统相比较基于分类的系统能够大幅提高其表现。综上所述,本文针对中文零指代消解的几方面挑战给出了相应解决方法,深入研究了该任务亟需解决的问题,并在国际标准数据集上提高了消解模型的性能。具体而言,我们探究了利用循环神经网络不同先行语之间关系的建模;利用零代词的上下文信息和潜在的先行语对其进行语义表示;利用注意力机制获取不同词在表意上的权重;在深度强化学习的框架下将传统分类模型扩展为序列决策模型,增量化地判断一个零代词的先行语。最后,希望本研究能够对中文零指代消解等相关问题和自然语言处理领域的学者提供一些参考和帮助。