实体消歧关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:dreamastlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体消歧旨在解决文本中广泛存在的名称歧义问题,在语义化搜索、问答系统、知识库扩充、异构知识库融合等领域有着广泛的应用。如果存在包含实体定义的知识库,实体消歧将文本中的实体名链接到知识库中对应的实体项。由于存在大量的重名现象,在分析理解文本的时候,需要实体消歧,以明确实体的正确指向,确定其语义。  实体消歧在实体知识库构建中起着重要作用。目前,大量的应用都需要大规模知识库的支撑,IBM的智能问答机器Watson以及谷歌的下一代语义化搜索引擎,在其后端都有大规模的知识库,特别是实体知识库作为基础。而大规模知识库的构建不能完全依赖于人工方式,因为人工构建知识库不仅代价大、而且覆盖度低。这就需要研究从普通文本中自动获取知识。然而,对于实体而言,从文本中自动获取并扩充实体知识,首先就会遇到重名问题,也就是实体的歧义问题。  本文围绕实体消歧展开研究。具体研究内容和创新归结为如下四个方面:  (1)上下文-实体语义一致性建模—学习特征表示的实体消歧  实体的语义可以通过所在的上下文表示,因此,实体所在的上下文和实体定义的语义一致性可以作为实体消歧的重要依据。对于上下文-实体语义一致性,已有工作通常使用词汇的向量空间模型计算,难以处理同义词、多义词等语义信息。本文在第三章提出利用深度学习技术,以直接优化消歧任务为训练目标,自动学习上下文和实体的特征表示和“上下文-实体定义”相似度度量。深度学习能够自动学习特征的多层表示,避免人工定义特征的一系列问题。实验显示,提出的方法取得了很好的效果,甚至优于更复杂的联合推断方法。  (2)利用实体间语义相关性增加决策间一致性—基于层叠学习器的联合实体消歧  同一上下文的多个实体往往包含丰富的语义关联,联合实体消歧考虑实体间的语义相关性,对上下文多个实体同时消歧。已有的联合消歧方法通常具有指数级别的搜索空间和复杂的推断过程。本文在第四章提出一种高效的基于图层叠学习器(graphicalstacking)的联合消歧算法,将预测过程分为两阶段,第二层学习器使用第一层学习器的预测结果构造全局特征,增加决策间的语义一致性。实验结果表明,该方法与已有方法相比,不仅速度更快,而且准确率更高。  (3)实体间语义相关性计算—结构化知识源中实体间语义相关度计算  实体间的语义相关度计算是联合实体消歧的基础,在语义化搜索引擎的相关实体推荐上也有重要应用。然而,目前的实体对语义相关度计算仅仅利用简单的实体共现和维基百科超链接关系;由于维基百科超链接的稀疏性,这种估计方式往往只对流行实体有效;基于超链接的计算方法也不能扩展到具有丰富语义结构的知识图谱上。本文在第五章研究了如何在结构化知识源Freebase中计算实体间的语义相关度。利用有监督的随机游走策略,自动学习实体间语义相关度,并将流行实体对的相关性泛化到具有相同关系的长尾实体对上。  (4)结构化字段上下文中的实体消歧—作者消歧  引文中的作者名很可能具有歧义。与自然语言文本中的实体消歧不同,引文中的作者名通常没有丰富的上下文信息,且以结构化字段作为上下文。已有的方法利用同一类型的字段构造简单词汇特征进行歧义消解。本文在第六章研究了如何利用表示学习和排序学习技术,在隐含语义空间学习特征表示,进行多个字段的比较。实验结果验证了提出的方法对作者名消歧效果的提升。
其他文献
我们和广东省人事厅合作开发的工资智能决策支持系统(SIDSS),由于存在着大量的随时间变化的数据和知识,所以我们将其作为研究时态数据库和时态知识推理的一个应用系统,这个系统
本文介绍了灌区管理信息系统的研究背景、需求分析论文针对该系统进行了两个方面的研究,一为面向对象方法在系统中的应用研究,包括利用UML对系统进行面向对象的分析和设计、面
旅客列车票额分配是在列车运能和运量不均衡的情况下,提高客流组织质量的重要手段。本论文从我国目前的客运实际需求出发,以现有的铁路客票发售和预订系统为基础,结合铁路客运营
该论文利用参数化绘图对固态继电器结构设计中常用的零件实现图形绘制,并构建了固态继电器的零件图形库.此外,利用AutoLISP语言对AutoCAD进行二次开发,定制快捷菜单或工具条,
该文展开研究并取得了以下成果:1.分布式防火墙环境下的网络安全信息描述技术.该文提出了基于XML的解决方案:通过XML-Schema技术实现了IDMEF DTD(Intrusion Detection Message F
该文以不确定性知识表示和处理的研究为背景,通过理论和实验验证相结合,在对Bayesian网方法全面了解的基础上,开展了Bayesian网推理方法及应用的研究.研究思路为:在分析Bayes
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的DMBS。异构数据库的各个组成部
近年来,互联网上传播的内容已经大大超出了文本的范围,图片、音频、视频、文档等复杂的信息形式越来越多地出现在网络生活中,成为人们日常工作娱乐不可缺少的一部分。为了对这部
以流水、波浪为对象的水波模拟是当前计算机图形学研究的热点之一,在计算机游戏、影视、广告等领域中有着重要的实际用途。本文研究了水波自由曲面的造型、绘制以及二维流场可
软件测试是确保软件质量的重要途径之一。自动测试技术可以辅助应用程序的开发,在软件工程研究中具有重要意义。随着移动应用的普及,人们日常生活使用移动应用的机会越来越多。