论文部分内容阅读
实体关系抽取是信息抽取中的重要子任务。传统有监督及半监督模型要求已有标注数据或知识库,无法在无先验知识的领域直接应用。无监督实体关系提取方法则将任务建模为聚类问题,能够只使用语料库自身信息进行实体关系抽取。然而已有方法受限于实体对文本共现矩阵的高维稀疏特性,表现有限且模型较为复杂。虽然在模型中引入了文本信息,但使用的人工构建特征集生成的离散特征向量同样高维稀疏,进一步增加了模型的复杂度,降低了引入信息对于模型的提升效果。因此,本文基于矩阵分解构建无监督实体关系提取模型,旨在降低模型复杂度并引入新的文本语义信息,从而提高模型的训练效率、可扩展性以及表现效果。本文工作主要分为以下三个部分:首先,本文提出了一个基于负采样的共现矩阵分解模型。模型使用表示学习方法学习实体对在关系空间中的表达,从而能够利用负采样方法降低模型学习的复杂度,更充分的利用高维稀疏共现矩阵的有限信息。其次,本文提出了一个深度语义强化的层次矩阵分解模型。模型使用层次矩阵分解模型降低文本语义信息引入后增加的模型复杂度,并使用深度语义嵌入编码文本语义信息,从而避免了人工构建特征集的高维稀疏特性与额外噪音。最后,本文融合了上述两个模型,并使用深度学习方法构建模型结构,提出了NURE-DSE神经网络实体关系抽取模型。模型结合了上述两个模型的优点,并使用反向传播算法自动推断模型参数,从而避免了复杂的数学推导。该模型复杂度低而结构简单,能够适应更大规模的语料库,从而具备更加广阔的应用与扩展空间。在NYT10实体关系提取数据集上的实验结果表明,本文提出的基于深度语义强化的神经网络实体关系提取模型在实体关系提取的表现上超过了已有方法,能够有效的学习到实体对在关系空间中的表达。