面向大规模知识库的高效知识补全方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zxy86983028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库是近年来兴起的一种对互联网海量知识进行高效管理和存储的技术,可以辅助和改善很多上层应用的用户体验。知识库的体量和信息的丰富程度直接决定了它的竞争力,体量越大,信息越丰富,对上次应用的支撑和用户体验就越好。尽管现有的大规模知识库存储着上千万的实体和关系,他们都存在覆盖率不全的问题,包括类别体系知识缺失、实体知识缺失、关系知识缺失。其中,类别体系知识缺失体现在类别体系深度不够、粒度不足够细;实体知识缺失主要体现在实体的细粒度类别缺失;关系知识缺失体现在隐含的、潜在的关系的待发掘。在面对大规模知识库时,由于数据量大,目前知识库的知识补全方法主要存在需要大量的人力参与、算法的执行效率慢两个瓶颈。针对这个问题,本文提出了类别体系知识、实体知识和关系知识的高效知识补全算法。主要研究成果如下:  (1)在类别体系知识补全方面,针对目前的知识库类别体系主要依赖人工补全,难以处理大规模知识库,且人工构造的类别体系往往粒度较粗的问题,本文提出一种无监督的基于属性信息的类别体系补全算法,从可行性和有效性两个角度建立了一个属性选择指标体系,使得依据该属性能够实现划分子类,且划分效果较好,通过充分利用大规模知识库的实体属性信息,实现了对类别体系知识的高效自动补全。  (2)在实体知识补全方面,针对大规模知识库的实体细粒度类别知识补全需要大规模标注数据的问题,本文采用使用远程监督的方式生成自动训练数据,同时针对远程监督生成的噪声,提出了基于类别路径注意力神经网络的抗噪实体类别知识补全方法,充分利用大规模知识库的丰富的类别体系知识,能够从互联网文本中自动识别出实体的细粒度类别,实现了对实体细粒度类别知识的高效自动补全。  (3)在关系知识补全方面,针对目前最优的基于表示学习的关系补全算法存在效率瓶颈、难以支撑大规模知识库关系补全的问题,本文提出一种无锁并行框架,加速基于知识库表示学习的关系知识补全算法,将大规模知识库的表示学习数据用超图进行数学建模,对表示学习的训练过程进行概率分析,理论证明了无锁并行的有效性,实现了对关系知识的高效快速补全。
其他文献
传感器网络技术在国防军事、战略性工业以及社会生活中诸多重要领域均具有广泛的应用,能够为国家带来巨大的经济利益和强有力的国防保障。典型的传感器网络由大量具有传感、数
传统的软件开发过程主要是以底层设计和编码驱动的,它带来了诸如生产效率低、可移植性差、互操作性差等问题。为了应对当前软件技术和业务需求的快速变化,对象管理组织OMG于200
水土保持是我国长期坚持的一项基本国策。通过外业调查来监测水土流失现状是一项精度低、费时、费力、成本高的工作,随着计算机技术的不断发展,人们开始尝试用新的技术手段解决
学位
随着软件应用的日益广泛及其重要性的不断增加,软件的质量问题日益突出。怎样提高软件的质量成为当前关注和研究的重点。软件可靠性是软件质量的固有特性之一,是软件质量的重
近年来,面向服务的体系结构(SOA)逐渐成为软件工程领域的研究热点,它在企业信息系统集成、分布式软件系统开发方面都有明显的优势,也是应对企业灵活多变的业务需求挑战的关键技
加密协议是信息安全的基石,加密协议能否实现用户所需的安全目标是所有加密协议设计者、使用者所关心的问题,但是加密协议的验证却是相当困难的。自从上世纪七十年代至今,加密协
目前面向对象技术已经成为软件开发的主流技术,而关系数据库是当前主流的数据存储技术,在应用程序开发中两种技术往往结合使用,因而出现了不匹配的问题。现有的对象关系映射框架
中间业务是指商业银行在传统的资产业务和负债业务的基础上,不直接承担或不直接形成债权债务,不动用或很少动用自身资产,以中介人或代理人身份为社会提供的各类金融服务,形成银行
笔式用户界面是HCI领域重要的研究方向,是Post-WIMP用户界面时代的主要界面形态之一,其在思维捕捉或记录、概念设计、观点研讨和交流等领域已经有较好的应用。笔式用户界面在得
二十世纪四十年代后期,Shannon提出了码的概念,从而导致了码论的产生。从形式语言的角度看,码是一类特殊的语言,它具有唯一分解的性质。什么样的语言是码和如何产生码是码论的两