论文部分内容阅读
随着互联网的飞速发展,不仅改变了人们的生活方式,也产生了巨大的信息资源。如何从海里的信息资源中高效准确地获取到知识成为了大数据时代亟需解决的问题。在众多的知识获取方法中,构建知识库的方法因其高效实用性得到了广泛关注。 在构建知识库过程中,存在着两类问题:一类是在知识库构建前期,如何从非结构化的网络信息中抽取到结构化的知识;另一类是对获取到的知识在存储至知识库中时,所需要面对的知识归一化。本文对面向网络本文的知识库的构建作了研究,主要从实体属性结构化信息抽取、实体属性名归一化和知识库应用出发,主要内容和贡献如下: (1)提出一种面向网络文本的实体属性结构化信息抽取方法。采用弱监督方法,通过自动回标语料来训练条件随机场CRF模型,抽取网络文本中的实体属性结构化信息。通过在线百科的特定网页结构,提取初始的属性集合,再利用初始的属性集合自动标注网络文本并生成上下文语料,从而根据上下文语料自动生成条件随机场CRF模型抽取实体属性结构化信息。 (2)提出一种基于外部证据的多特征实体属性名归一化方法。在构建知识库过程中,需要对导入的知识进行归一化,部分实体属性名存在着多词同义问题,需要对实体属性名进行归一化,考虑到实体属性名自身携带的信息特征较少,提出利用外部证据来扩展实体属性名特征的方法进行实体属性名归一化。 (3)设计并构建了一个面向网络文本的实体知识库。设计了知识的结构化存储形式,将抽取的知识以结构化的形式存储于数据库中,并具体介绍了包括数据库的选择、以及数据库表的设计。并根据已构建完成的知识库实现了基于知识库的应用:实体链指。