面向网络文本的实体知识库构建及应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:htloveqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,不仅改变了人们的生活方式,也产生了巨大的信息资源。如何从海里的信息资源中高效准确地获取到知识成为了大数据时代亟需解决的问题。在众多的知识获取方法中,构建知识库的方法因其高效实用性得到了广泛关注。  在构建知识库过程中,存在着两类问题:一类是在知识库构建前期,如何从非结构化的网络信息中抽取到结构化的知识;另一类是对获取到的知识在存储至知识库中时,所需要面对的知识归一化。本文对面向网络本文的知识库的构建作了研究,主要从实体属性结构化信息抽取、实体属性名归一化和知识库应用出发,主要内容和贡献如下:  (1)提出一种面向网络文本的实体属性结构化信息抽取方法。采用弱监督方法,通过自动回标语料来训练条件随机场CRF模型,抽取网络文本中的实体属性结构化信息。通过在线百科的特定网页结构,提取初始的属性集合,再利用初始的属性集合自动标注网络文本并生成上下文语料,从而根据上下文语料自动生成条件随机场CRF模型抽取实体属性结构化信息。  (2)提出一种基于外部证据的多特征实体属性名归一化方法。在构建知识库过程中,需要对导入的知识进行归一化,部分实体属性名存在着多词同义问题,需要对实体属性名进行归一化,考虑到实体属性名自身携带的信息特征较少,提出利用外部证据来扩展实体属性名特征的方法进行实体属性名归一化。  (3)设计并构建了一个面向网络文本的实体知识库。设计了知识的结构化存储形式,将抽取的知识以结构化的形式存储于数据库中,并具体介绍了包括数据库的选择、以及数据库表的设计。并根据已构建完成的知识库实现了基于知识库的应用:实体链指。
其他文献
云计算是一种互联网计算新模式,因为其商业模式代表了未来的趋势,近年来受到了工业界和学术界的广泛关注,并且已经逐步应用(?)起来。其中,基础设施云是云计算三种交付模型(即
近几年来,物联网的发展为智能家居概念注入了新的内涵,作为物联网应用的一个新的领域,智能家居系统融合了先进的计算机、网络通信和自动控制等技术,将家庭中的各种家居设备通过家
物联网具有广阔的发展前景,建立共性平台是未来物联网发展的重要趋势,也是物联网规模产业化的制高点。作为物联网感知层的核心组成部分,数据采集终端(简称“数采终端”)完成传感
团购是指将原本单独购买某种商品或服务的消费者组织起来,在一个较短的时间段内集中与商家发生交易,以求得更低折扣或者更优服务的一种购物方式。网络团购是以互联网作为媒介,将
随着计算机应用的深入开展和业务需求的增长,企业对IT系统的发布提出了更高的要求。传统的人工手动部署反应慢、过程复杂和不可控制,造成上线周期过长,导致了新功能的堆积、系统
双隐层主题模型是主题模型的一个变种。传统的主题模型方法比如LDA,PLSA都是单一隐层,对应着文本的主题变量,因而能够对文档的主题进行建模。而双隐层主题模型具有双隐变量,分别
碰撞检测技术是指检测虚拟场景中两个或多个物体对象之间是否碰撞,何时碰撞,何处碰撞等问题。碰撞检测技术在计算机游戏,物理仿真,虚拟技术,计算动画等领域得到广泛的应用。因其算
面向对象的组件开发方法采用全新的方法论,对很多经验不足的程序员来说,难以理解。加上结构化思想的干扰,使很多采用面向对象方法的应用开发并不能体现出优势。在这种情况下,采用
分布式总账自2009年由中本聪首次提出后,经过短短几年时间就取得了巨大发展,并自2013年起引起了学术界和工业界的广泛关注。与传统银行总账不同,分布式总账采用去中心化方式管理
随着互联网上的信息不断膨胀以及信息形式的日渐多元化,通用搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户寻找自己所需要的信息是一件很