论文部分内容阅读
大数据环境下,对知识的萃取、组织和服务是解决用户精准化信息需求的一种有效途径。为此,学术界和产业界投入了大量人力物力构建数量更多、涵盖领域更广、质量更高的知识库。为了更好地服务普通用户,知识库问答直接响应自然语言描述的信息需求,是一种良好的知识库交互接口。但是,一方面,考虑到人类总结知识过程中存在的不确定性以及知识(库)本身的复杂性和异构性,现有知识库存在较严重的不完备情况,因此,如何对其中的知识(包括结构和事实)进行补全是知识萃取和组织中的重要任务;另一方面,自然语言和知识库是完全不同的符号系统,知识库问答系统需要建立自然语言问句与知识库中知识元素之间的对应关系,因此,如何把对问句进行语义解析并转化为面向知识库的形式化查询语句是知识服务的核心任务。 本文面向知识库问答这种知识服务形式,以知识库的事实补全和自然语言问句的语义解析两个具体任务为出发点,在对现有技术和系统进行深入分析和比较的基础上,提出了创新的事实补全和问句解析技术,具体成果如下: 一、基于表示学习的知识库事实补全:高斯分布表示。基于表示学习的知识库事实补全是一类有效的新方法,它把知识库(中的实体和关系)嵌入到低维空间中并通过数值计算完成知识推理(如事实补全)。知识库表示学习主要涉及表示、模型和学习策略三个方面的内容。首先关注表示部分,当前知识库表示学习方法大多把实体表示为空间中的“点”,把关系表示为“点”之间的操作,通过在整体知识库上定义全局损失函数学习实体和关系的表示,这种基于“点”的表示不能有效区分不同粒度、不同含义的实体和关系,忽略了知识库中的不确定性。针对这一问题,本文提出了一种基于“密度”的知识库表示方法,使用高斯嵌入在多维高斯分布空间中表示实体和关系,分布的协方差矩阵能有效表示知识库元素的不确定性。通过设计对称和非对称两种打分函数,学习到知识库中实体和关系的高斯分布表示,其均值向量和协方差矩阵(为了减少计算量,当前仅使用对角矩阵)分别表示其位置和不确定性。在公开数据集上的实验表明,该方法不仅能够有效地表示知识库中实体和关系的不确定性,也能够有效地提升事实分类和链接预测的性能。 二、基于表示学习的知识库事实补全:Boosting样本选择策略和联合排序学习策略。对于知识库表示学习中的学习策略,当前学习方法大都采用分类方式,通过优化众多基本分类模型得到知识库的低维嵌入,即通过优化分类模型中的正负例(真假事实)得分之差学习实体和关系的表示。采用这种方法只能优化单个正负例,不能保证整体上得到一个一致正确的分类结果,可能导致负例穿插在正例周围的情况。为了解决该问题,一方面,考虑到不同样本的差异性,本文提出了基于Boosting策略选择学习样本;另一方面,考虑到多样本之间的关联,本文提出了使用联合排序学习同时优化多个样本,目标是使得相关的所有正例优于所有负例。在公开数据集上的实验表明,即使使用最初步的模型,使用本文提出的学习策略可以在事实分类和链接预测等相关任务上取得显著的效果。 三、基于马尔科夫逻辑网的知识库问句解析方法。对于问句解析,现有方法大多采用流水线方式,包含短语识别、短语映射、资源组合和查询生成等四个步骤。一方面,流水线方式容易产生错误传递问题;另一方面,资源组合需要人工规则和模板。针对上述问题,本文提出了一种基于马尔科夫逻辑网的学习方法,对短语识别、短语到资源的映射、资源组合关系的判别等三个任务进行联合建模。首先定义一组语种无关、领域无关的一阶谓词公式元规则,然后基于数据驱动方式生成具体规则,并利用问句的语言学特征和知识库中的约束对上述三个任务联合建模,自动学习具体规则的权重并得到消歧结果。在三个标准评测问题集上的实验效果表明:规则学习策略能得到有效的模板,通过联合学习得到的更好消岐结果,该方法能有效提升知识库问答中问句解析的效果。