论文部分内容阅读
实体消歧旨在解决文本中广泛存在的名称歧义问题,在语义化搜索、问答系统、知识库扩充、异构知识库融合等领域有着广泛的应用。如果存在包含实体定义的知识库,实体消歧将文本中的实体名链接到知识库中对应的实体项。由于存在大量的重名现象,在分析理解文本的时候,需要实体消歧,以明确实体的正确指向,确定其语义。 实体消歧在实体知识库构建中起着重要作用。目前,大量的应用都需要大规模知识库的支撑,IBM的智能问答机器Watson以及谷歌的下一代语义化搜索引擎,在其后端都有大规模的知识库,特别是实体知识库作为基础。而大规模知识库的构建不能完全依赖于人工方式,因为人工构建知识库不仅代价大、而且覆盖度低。这就需要研究从普通文本中自动获取知识。然而,对于实体而言,从文本中自动获取并扩充实体知识,首先就会遇到重名问题,也就是实体的歧义问题。 本文围绕实体消歧展开研究。具体研究内容和创新归结为如下四个方面: (1)上下文-实体语义一致性建模—学习特征表示的实体消歧 实体的语义可以通过所在的上下文表示,因此,实体所在的上下文和实体定义的语义一致性可以作为实体消歧的重要依据。对于上下文-实体语义一致性,已有工作通常使用词汇的向量空间模型计算,难以处理同义词、多义词等语义信息。本文在第三章提出利用深度学习技术,以直接优化消歧任务为训练目标,自动学习上下文和实体的特征表示和“上下文-实体定义”相似度度量。深度学习能够自动学习特征的多层表示,避免人工定义特征的一系列问题。实验显示,提出的方法取得了很好的效果,甚至优于更复杂的联合推断方法。 (2)利用实体间语义相关性增加决策间一致性—基于层叠学习器的联合实体消歧 同一上下文的多个实体往往包含丰富的语义关联,联合实体消歧考虑实体间的语义相关性,对上下文多个实体同时消歧。已有的联合消歧方法通常具有指数级别的搜索空间和复杂的推断过程。本文在第四章提出一种高效的基于图层叠学习器(graphicalstacking)的联合消歧算法,将预测过程分为两阶段,第二层学习器使用第一层学习器的预测结果构造全局特征,增加决策间的语义一致性。实验结果表明,该方法与已有方法相比,不仅速度更快,而且准确率更高。 (3)实体间语义相关性计算—结构化知识源中实体间语义相关度计算 实体间的语义相关度计算是联合实体消歧的基础,在语义化搜索引擎的相关实体推荐上也有重要应用。然而,目前的实体对语义相关度计算仅仅利用简单的实体共现和维基百科超链接关系;由于维基百科超链接的稀疏性,这种估计方式往往只对流行实体有效;基于超链接的计算方法也不能扩展到具有丰富语义结构的知识图谱上。本文在第五章研究了如何在结构化知识源Freebase中计算实体间的语义相关度。利用有监督的随机游走策略,自动学习实体间语义相关度,并将流行实体对的相关性泛化到具有相同关系的长尾实体对上。 (4)结构化字段上下文中的实体消歧—作者消歧 引文中的作者名很可能具有歧义。与自然语言文本中的实体消歧不同,引文中的作者名通常没有丰富的上下文信息,且以结构化字段作为上下文。已有的方法利用同一类型的字段构造简单词汇特征进行歧义消解。本文在第六章研究了如何利用表示学习和排序学习技术,在隐含语义空间学习特征表示,进行多个字段的比较。实验结果验证了提出的方法对作者名消歧效果的提升。