论文部分内容阅读
知识图谱中含有大量形如(实体1,关系,实体2)这样的三元组,为诸多人工智能应用提供了可被计算机理解的结构化数据。目前问世的知识图谱中存储了海量的知识,但是仍然没有达到完备的程度。知识图谱补全旨在解决知识图谱中广泛存在的数据稀疏问题,提升其内部完善程度。从已有的算法来看,目前主要有两种信息可以用于知识图谱补全工作。第一种为知识图谱中已有的三元组数据。第二种为三元组之外的文本、图像等多源信息。如果用人工方式来整合这些信息,将不能满足规模日益庞大的知识图谱的补全工作的需求。近年来知识表示学习的发展大大提升了知识图谱补全的效率。知识表示学习旨在将知识图谱中的实体和关系映射到低维向量空间。这样,我们可以很方便地计算语义相似度,高效地利用上面所提到的两种信息进行知识图谱补全。基于知识表示学习的补全算法已经取得了很大的进展,但仍存在以下几个问题:(1)多源信息的质量良莠不齐,缺乏有效的方式从中提炼出有用的信息;(2)多源信息种类丰富,但没有被充分利用;(3)没有考虑三元组中实体1和实体2的异质性。针对以上问题,本文的主要工作如下:1).在实体表示学习中,引入实体的文本邻域和结构邻域信息。实体的文本邻域指的是文本中与其频繁共现的其他实体构成的集合,可以更精准的捕捉到文本中有用的信息;实体的结构邻域指的是在知识图谱中与其相连的其他实体构成的集合。我们在对实体建模的时候同时考虑这两种邻域信息,这样学习到的实体表示更具有表现力。2).当知识图谱中的实体比较孤单,与其一起出现的实体数目很少的时候,基于实体邻域的模型无法获得理想的效果。因此我们针对性地引入实体的描述信息,并用CNN作为编码器。然后提出两种描述信息与三元组联合学习的方式:(i)将实体基于描述信息的表示和基于三元组的表示进行交叉融合训练。对于其中三元组的部分,我们使用不同的矩阵对两个实体进行映射,并规定映射矩阵必须为低秩的。(ii)将描述信息用一种映射的方式融入到三元组中去。这种方式复杂度低,可以较好地表示非一对一关系下的三元组。此外,通过以上两种方式构建的模型都可以用于零次学习场景,即生成未在知识图谱中出现过的实体的表示。这样实体的描述信息就得到了更好地利用。本文在FB15k,WN18等基准数据集上进行了链接预测、三元组分类等知识图谱补全相关的实验。实验证明,与现有的方法相比,本文提出的模型可以更好地进行知识图谱补全工作。