论文部分内容阅读
知识库是近年来兴起的一种对互联网海量知识进行高效管理和存储的技术,可以辅助和改善很多上层应用的用户体验。知识库的体量和信息的丰富程度直接决定了它的竞争力,体量越大,信息越丰富,对上次应用的支撑和用户体验就越好。尽管现有的大规模知识库存储着上千万的实体和关系,他们都存在覆盖率不全的问题,包括类别体系知识缺失、实体知识缺失、关系知识缺失。其中,类别体系知识缺失体现在类别体系深度不够、粒度不足够细;实体知识缺失主要体现在实体的细粒度类别缺失;关系知识缺失体现在隐含的、潜在的关系的待发掘。在面对大规模知识库时,由于数据量大,目前知识库的知识补全方法主要存在需要大量的人力参与、算法的执行效率慢两个瓶颈。针对这个问题,本文提出了类别体系知识、实体知识和关系知识的高效知识补全算法。主要研究成果如下: (1)在类别体系知识补全方面,针对目前的知识库类别体系主要依赖人工补全,难以处理大规模知识库,且人工构造的类别体系往往粒度较粗的问题,本文提出一种无监督的基于属性信息的类别体系补全算法,从可行性和有效性两个角度建立了一个属性选择指标体系,使得依据该属性能够实现划分子类,且划分效果较好,通过充分利用大规模知识库的实体属性信息,实现了对类别体系知识的高效自动补全。 (2)在实体知识补全方面,针对大规模知识库的实体细粒度类别知识补全需要大规模标注数据的问题,本文采用使用远程监督的方式生成自动训练数据,同时针对远程监督生成的噪声,提出了基于类别路径注意力神经网络的抗噪实体类别知识补全方法,充分利用大规模知识库的丰富的类别体系知识,能够从互联网文本中自动识别出实体的细粒度类别,实现了对实体细粒度类别知识的高效自动补全。 (3)在关系知识补全方面,针对目前最优的基于表示学习的关系补全算法存在效率瓶颈、难以支撑大规模知识库关系补全的问题,本文提出一种无锁并行框架,加速基于知识库表示学习的关系知识补全算法,将大规模知识库的表示学习数据用超图进行数学建模,对表示学习的训练过程进行概率分析,理论证明了无锁并行的有效性,实现了对关系知识的高效快速补全。