论文部分内容阅读
随着互联网的发展,互联网上的信息数量也在以指数的形式快速增长,这种海量的互联网数据具有极其重要的应用价值。但这种互联网数据具体其本身的异构性、随意性以及非语义性等特点,若想快速的在互联网信息中找到自己所需的数据非常困难,所以迫切的需要一种让计算机能快速准确的理解自然语言的方法。理解自然语言最根本的办法是将平文本通过语义信息抽取的办法转化为语义结构。目前传统的语义信息抽取是先将文本通过句法分析转化为语法结构,然后将语法结构直接与语义结构建立映射关系。这种方法存在比较大的弊端,直接由语法转化到语义,跨度比较大,所以实现起来比较困难。本文通过对文本的浅层语义分析进行了深入剖析,然后提出了基于谓词-论元结构(PA结构)的语义信息抽取方法,该方法在语法结构和语义结构之间加入了PA结构。PA结构是一种介于语法结构和语义结构之间的中间形式,它既有语法特性又具备浅层语义特性,所以在语义信息抽取中引入PA结构,会极大的缓解传统抽取方法跨度大的问题。在引入PA结构后,语义信息抽取就被分成了两步:由句法结构得到PA结构和将PA结构映射到语义结构。由于目前语义角色标注、语义角色归纳等技术均比较成熟,所以获取PA结构也相对比较简单,本文不作赘述。在第二步PA结构到语义结构映射时,本文采用背景知识本体作为指导。通过选取适当形式的背景知识本体,然后将PA结构与背景知识本体一一建立起映射关系,从而最终实现语义信息抽取。本文在第四章详细介绍了基于PA结构语义信息抽取的核心算法,然后在第五章通过应用PropBank、FrameNet和SemLink作为实验数据对第四章提出的算法进行了实验验证,并对实验结果进行了深入分析。