基于多源信息表示学习的知识图谱补全算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:aa283488665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱中含有大量形如(实体1,关系,实体2)这样的三元组,为诸多人工智能应用提供了可被计算机理解的结构化数据。目前问世的知识图谱中存储了海量的知识,但是仍然没有达到完备的程度。知识图谱补全旨在解决知识图谱中广泛存在的数据稀疏问题,提升其内部完善程度。从已有的算法来看,目前主要有两种信息可以用于知识图谱补全工作。第一种为知识图谱中已有的三元组数据。第二种为三元组之外的文本、图像等多源信息。如果用人工方式来整合这些信息,将不能满足规模日益庞大的知识图谱的补全工作的需求。近年来知识表示学习的发展大大提升了知识图谱补全的效率。知识表示学习旨在将知识图谱中的实体和关系映射到低维向量空间。这样,我们可以很方便地计算语义相似度,高效地利用上面所提到的两种信息进行知识图谱补全。基于知识表示学习的补全算法已经取得了很大的进展,但仍存在以下几个问题:(1)多源信息的质量良莠不齐,缺乏有效的方式从中提炼出有用的信息;(2)多源信息种类丰富,但没有被充分利用;(3)没有考虑三元组中实体1和实体2的异质性。针对以上问题,本文的主要工作如下:1).在实体表示学习中,引入实体的文本邻域和结构邻域信息。实体的文本邻域指的是文本中与其频繁共现的其他实体构成的集合,可以更精准的捕捉到文本中有用的信息;实体的结构邻域指的是在知识图谱中与其相连的其他实体构成的集合。我们在对实体建模的时候同时考虑这两种邻域信息,这样学习到的实体表示更具有表现力。2).当知识图谱中的实体比较孤单,与其一起出现的实体数目很少的时候,基于实体邻域的模型无法获得理想的效果。因此我们针对性地引入实体的描述信息,并用CNN作为编码器。然后提出两种描述信息与三元组联合学习的方式:(i)将实体基于描述信息的表示和基于三元组的表示进行交叉融合训练。对于其中三元组的部分,我们使用不同的矩阵对两个实体进行映射,并规定映射矩阵必须为低秩的。(ii)将描述信息用一种映射的方式融入到三元组中去。这种方式复杂度低,可以较好地表示非一对一关系下的三元组。此外,通过以上两种方式构建的模型都可以用于零次学习场景,即生成未在知识图谱中出现过的实体的表示。这样实体的描述信息就得到了更好地利用。本文在FB15k,WN18等基准数据集上进行了链接预测、三元组分类等知识图谱补全相关的实验。实验证明,与现有的方法相比,本文提出的模型可以更好地进行知识图谱补全工作。
其他文献
在小型办公会议举行时,参会者可能需要在不同场合下访问多种设备,有时也同时访问一种设备。这样就需要一个承载信息、服务以及需要分享的应用程序的第三方云体系或者设备,来满足
本文采用rac-[Me2Si(2-Me-4-Ph-Ind)2]ZrCl2-MMAO/BHT催化体系进行了三异丁基铝(TIBA)保护的十一烯醇与丙烯的共聚,得到了不同羟基含量的功能化聚丙烯。研究了极性单体加入量对极
目的探讨良性位置性眩晕(BPPV)的治疗方法中手法复位的临床价值。方法将68例BPPV患者分为常规组(常规药物治疗)和联合组(药物联合手法复位治疗),各34例。比较两组疗效指标。
丁苯酞(恩必普,石药集团恩必普药业有限公司)软胶囊属于国家一类新药,其有效成分为dl-3-正丁基苯酞,经20余年的动物试验证明具有独特的明显的抗急性缺血性脑卒中的作用。我科使用
2001年,我国率先颁布了《船用充气橡胶靠球》的船舶行业标准(CB/T 3948-2001).本文介绍了标准出台前后,我国浮式充气靠球研制开发现状和产品优势;标准制订过程中,济南昌林气
本文主要针对传统耐腐蚀安全阀的结构设计中的薄弱环节,对弹簧作用式安全阀进行改进设计,目的是解决安全阀开启压力与保持密封的压力之间的差值受到标准规定和系统运行条件的限
近日,卡巴斯基实验室再次发布2012年安全公告。报告显示:最新发现的手机恶意程序中有99%均针对安卓平台发动攻击,此外有很少一部分针对基于Java和塞班的智能手机。依据卡巴斯基提供的研究数据,2012年是安卓恶意软件呈现爆炸性增长的第二年。虽然2011年1月,卡巴斯基实验室新发现的安卓恶意程序只有8款,但是到了2011年末,平均每月发现的新安卓恶意软件却超过800多款。2012年,卡巴斯基实验室平