领域自适应的中文实体关系抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bossvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增加,如何从海量数据中准确、快速地获取用户真正需要的信息成为人们关注的话题。信息抽取的主要目的是将非结构化的自然语言文本转化成半结构化或结构化的数据,方便人们准确、快速地获取关键信息。关系抽取作为信息抽取的子任务和关键技术之一,已经逐渐发展成为众多自然语言处理任务的重要支撑技术。传统的关系抽取方法需要预先定义关系类型,依赖于大量人工标注的训练语料库,难以满足互联网海量信息处理的需求。本文提出了一种新的关系抽取研究框架,探索最大程度地避免人工参与,且具有较强领域自适应能力的关系抽取解决方案,提高关系抽取的自动化程度,增强可移植性。首先,通过分析关系实例上下文语言现象发现,绝大多数产生语义关系的实体对均可以由其上下文中的一般动词和一般名词触发描述(统称为特征词),由此,本文提出基于特征词聚类的方法,在一定规模的未标注语料库上实现关系类型的自动发现,实验中达到了与人工预定义关系类型相当的效果;其次,针对大量待处理的关系类型,本文提出基于Web Mining的关系种子集自动抽取方法,充分利用搜索引擎收集和处理大规模真实数据的能力和优势,抽取具有代表性的实体关系核心网,经过在选取的9种关系类型上进行实验,平均准确率达到了90.91%;再次,根据中文语言学特点,本文定义了启发式上下文模式及其泛化策略,引入Bootstrapping方法,以实体关系核心网作为输入,在未标注语料库上迭代地挖掘关系描述模式,并抽取关系元组,通过对采样的关系元组进行人工评价,平均准确率达到了88.24%,满足了实用系统的需求。最后,本文设计并实现了领域自适应的关系抽取平台XInfo,在该平台上,研究人员可以专注于算法的改进和研究,快速进行实验,为自然语言处理相关领域研究和应用提供支持。另外,本文以人物社会关系抽取作为应用任务,开发了一套人物社会关系在线演示系统,以直观、清晰的方式展示关系抽取效果。
其他文献
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们
随着云服务的应用领域越来越广,基于虚拟化技术的服务器集群规模越来越大,这对集群的资源调度提出了新的挑战。在大规模的虚拟化集群中,虚拟机的数量和负载会随应用的需求而经常
随着软件开发技术和测试技术的发展,仅仅依靠以密集劳动为特征的传统手工测试,已经不能满足快节奏软件开发和测试的需求,在测试中引入自动化测试技术已经成为共识。论文简要介绍
The emergence of mobile computing provides the ability to access information almost anywhere and anytime. Mobility and the remote access to information is quick
随着信息技术的迅猛发展,各种网络攻击已是非常普遍的现象。数据安全和通信安全也越来越受到人们的关注,如何在保证性能一定的情况下,还能提供完善的安全服务已经成为了炙手可热
粗糙集理论是波兰科学家Pawlak提出的一种新型的数学工具,可以处理复杂的不确定系统,在人工智能、数据挖掘、机器学习等领域都取得了较为成功的应用。但是经典的粗糙集理论是基
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够
为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及
随着计算机技术的发展和互联网技术的进步,企业集成制造趋势越发明显,传统的产品信息表达方式和处理模式已无法适应现代企业的需求。产品信息的交换与共享已不再局限于数据内
基于构件的软件开发方法被视为解决软件危机的现实可行途径,这种方法的前提是需要大量可以使用的元构件,为了解决构件的来源问题,当前互联网涌现了一批构件资源下载网站,但是这些