面向知识库问答的事实补全和问句解析技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zzbluebus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据环境下,对知识的萃取、组织和服务是解决用户精准化信息需求的一种有效途径。为此,学术界和产业界投入了大量人力物力构建数量更多、涵盖领域更广、质量更高的知识库。为了更好地服务普通用户,知识库问答直接响应自然语言描述的信息需求,是一种良好的知识库交互接口。但是,一方面,考虑到人类总结知识过程中存在的不确定性以及知识(库)本身的复杂性和异构性,现有知识库存在较严重的不完备情况,因此,如何对其中的知识(包括结构和事实)进行补全是知识萃取和组织中的重要任务;另一方面,自然语言和知识库是完全不同的符号系统,知识库问答系统需要建立自然语言问句与知识库中知识元素之间的对应关系,因此,如何把对问句进行语义解析并转化为面向知识库的形式化查询语句是知识服务的核心任务。  本文面向知识库问答这种知识服务形式,以知识库的事实补全和自然语言问句的语义解析两个具体任务为出发点,在对现有技术和系统进行深入分析和比较的基础上,提出了创新的事实补全和问句解析技术,具体成果如下:  一、基于表示学习的知识库事实补全:高斯分布表示。基于表示学习的知识库事实补全是一类有效的新方法,它把知识库(中的实体和关系)嵌入到低维空间中并通过数值计算完成知识推理(如事实补全)。知识库表示学习主要涉及表示、模型和学习策略三个方面的内容。首先关注表示部分,当前知识库表示学习方法大多把实体表示为空间中的“点”,把关系表示为“点”之间的操作,通过在整体知识库上定义全局损失函数学习实体和关系的表示,这种基于“点”的表示不能有效区分不同粒度、不同含义的实体和关系,忽略了知识库中的不确定性。针对这一问题,本文提出了一种基于“密度”的知识库表示方法,使用高斯嵌入在多维高斯分布空间中表示实体和关系,分布的协方差矩阵能有效表示知识库元素的不确定性。通过设计对称和非对称两种打分函数,学习到知识库中实体和关系的高斯分布表示,其均值向量和协方差矩阵(为了减少计算量,当前仅使用对角矩阵)分别表示其位置和不确定性。在公开数据集上的实验表明,该方法不仅能够有效地表示知识库中实体和关系的不确定性,也能够有效地提升事实分类和链接预测的性能。  二、基于表示学习的知识库事实补全:Boosting样本选择策略和联合排序学习策略。对于知识库表示学习中的学习策略,当前学习方法大都采用分类方式,通过优化众多基本分类模型得到知识库的低维嵌入,即通过优化分类模型中的正负例(真假事实)得分之差学习实体和关系的表示。采用这种方法只能优化单个正负例,不能保证整体上得到一个一致正确的分类结果,可能导致负例穿插在正例周围的情况。为了解决该问题,一方面,考虑到不同样本的差异性,本文提出了基于Boosting策略选择学习样本;另一方面,考虑到多样本之间的关联,本文提出了使用联合排序学习同时优化多个样本,目标是使得相关的所有正例优于所有负例。在公开数据集上的实验表明,即使使用最初步的模型,使用本文提出的学习策略可以在事实分类和链接预测等相关任务上取得显著的效果。  三、基于马尔科夫逻辑网的知识库问句解析方法。对于问句解析,现有方法大多采用流水线方式,包含短语识别、短语映射、资源组合和查询生成等四个步骤。一方面,流水线方式容易产生错误传递问题;另一方面,资源组合需要人工规则和模板。针对上述问题,本文提出了一种基于马尔科夫逻辑网的学习方法,对短语识别、短语到资源的映射、资源组合关系的判别等三个任务进行联合建模。首先定义一组语种无关、领域无关的一阶谓词公式元规则,然后基于数据驱动方式生成具体规则,并利用问句的语言学特征和知识库中的约束对上述三个任务联合建模,自动学习具体规则的权重并得到消歧结果。在三个标准评测问题集上的实验效果表明:规则学习策略能得到有效的模板,通过联合学习得到的更好消岐结果,该方法能有效提升知识库问答中问句解析的效果。
其他文献
本文旨在研究计算机视觉中基于结构信息的点匹配算法。在计算机视觉中,图像是最主要的信息形式。为了更好地处理图像,往往需要从图像中抽取特征点,并匹配不同图像中的特征点。点
基于正定核的机器学习算法是统计学习理论最近的研究热点。正定核对应某一特征空间的内积,从而隐含地对输入空间实现非线性映射。基于正定核的学习算法以核诱导的再生核希尔伯
现场总线是20世纪80年代中期在国际上发展起来的。它应用在生产现场,实现微机化测量设备之间的双向串行多节点数字通信,它适应了工业控制系统向分散化、网络化、智能化方向的发展。Profibus是Process FieldBus的缩写,是一种用于工厂自动化车间级监控和现场设备层数据通信与控制的现场总线技术,可实现现场设备层到车间级监控的分散式数字控制和现场通信,从而为实现工厂综合自动化和现场设备智能化提
多机器人协作运动规划是多机器人系统中的一个重要而基本问题。它涉及到环境的表达、冲突检测、运动规划、机器人协作等诸多方面的问题。多机器人系统在工业、军事、航空航天
本文讨论了基于软测量技术的监控系统变量获取,另外针对监控系统的可靠性的要求,详细地描述有关监控系统的冗余设计问题。分析了软硬件冗余的各种方法,并对各种冗余方法在实际控
铰接转向式履带车是由铰接机构连接并实现转向和俯仰等功能的双节履带车,具有接地比压低,机动性高,负载能力大,地形适应能力强等特点,也被称为履带式全地形车,可广泛应用在军事国防
复杂系统异常状态的预报,一直是人们迫切希望解决的问题。为此,众多的理论研究人员与实践工作者都希望找到一些切实可行的预报方法用以解决应用中的实际问题。本文针对复杂工业
机器人视觉伺服控制技术利用视觉传感器来获取环境信息,检测机器人执行器和目标物体当前位姿之间的相对位姿关系,并通过反馈控制使机器人执行器到达期望的位置和姿态,最终完成跟
乙苯脱氢反应单元是苯乙烯装置中的重要组成部分,其作用是在高温负压并且有催化剂存在的条件下,把前部单元送来的乙苯原料转化成重要的化工产品——苯乙烯单体。 目前,国内外
在SIMULINK/MATLAB环境下,利用建立的两段提升管催化裂化反再系统动态机理模型搭建了反再仿真系统。通过系统仿真实验,对反再系统的动态特性和稳态特性进行了分析和研究。在此