基于PA结构的语义信息抽取的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:lionados
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,互联网上的信息数量也在以指数的形式快速增长,这种海量的互联网数据具有极其重要的应用价值。但这种互联网数据具体其本身的异构性、随意性以及非语义性等特点,若想快速的在互联网信息中找到自己所需的数据非常困难,所以迫切的需要一种让计算机能快速准确的理解自然语言的方法。理解自然语言最根本的办法是将平文本通过语义信息抽取的办法转化为语义结构。目前传统的语义信息抽取是先将文本通过句法分析转化为语法结构,然后将语法结构直接与语义结构建立映射关系。这种方法存在比较大的弊端,直接由语法转化到语义,跨度比较大,所以实现起来比较困难。本文通过对文本的浅层语义分析进行了深入剖析,然后提出了基于谓词-论元结构(PA结构)的语义信息抽取方法,该方法在语法结构和语义结构之间加入了PA结构。PA结构是一种介于语法结构和语义结构之间的中间形式,它既有语法特性又具备浅层语义特性,所以在语义信息抽取中引入PA结构,会极大的缓解传统抽取方法跨度大的问题。在引入PA结构后,语义信息抽取就被分成了两步:由句法结构得到PA结构和将PA结构映射到语义结构。由于目前语义角色标注、语义角色归纳等技术均比较成熟,所以获取PA结构也相对比较简单,本文不作赘述。在第二步PA结构到语义结构映射时,本文采用背景知识本体作为指导。通过选取适当形式的背景知识本体,然后将PA结构与背景知识本体一一建立起映射关系,从而最终实现语义信息抽取。本文在第四章详细介绍了基于PA结构语义信息抽取的核心算法,然后在第五章通过应用PropBank、FrameNet和SemLink作为实验数据对第四章提出的算法进行了实验验证,并对实验结果进行了深入分析。
其他文献
随着生活水平的提高,人们对自身的健康状况给予了越来越多的关注。但因时间地点的限制,人们无法时刻了解自己的健康状况。移动健康这个概念因此而产生,因其能够摆脱时间和地域的
在线网络是具有亚社会性质的网络,其建立在电子计算机、远程通讯技术基础上,通过信息交互系统连接不同主体,然后彼此之间信息共享、互换与交流。由于互联网具有开放性、隐蔽性等
双目立体视觉是计算机视觉中一个重要研究领域。双目立体视觉系统通过模拟人类双眼视觉过程,对摄像机拍摄的二维图像通过立体匹配获取场景的深度信息,从而进行三维重建。双目立
随着计算机技术的高速发展,图像处理技术的广泛应用,视频监控系统的应用已经渗透到各个领域。视频监控系统已经成为当今可视化领域的一个新的开发热点。许多应用领域对于视频监
目前,结直肠癌(Colorectal Cancer,CRC)已经成为世界范围内最常见的恶性肿瘤之一。全世界每年约有120万新发病例,约60万人死于该疾病。在过去的几十年,我国结直肠癌发病率处
摘要:随着Web技术的快速发展和本体在计算机领域的广泛应用,本体的构建和维护必须达到更高水平,传统的从零开始构建本体的方式已经不能满足高质量大规模本体构建的要求。目前,
学位
20世纪60年代,第一个E-learning雏形系统计算机英语教学的出现,打破了传统课堂教育的限制,使得教与学不再只是面对面知识的传授。近几年来,随着互联网的迅速普及,E-learning在世界
Web服务是自描述的、平台无关的,它使用开放式标准,允许不同的应用程序进行交互。Web服务作为一种新兴的信息技术,形成了一种新的基于互联网的信息系统通用框架,允许用户远程调用
近几年,移动互联网蓬勃发展,为充分发挥移动互联网的优势,加快信息化建设,更好的服务移动用户,各企业以及各政府机构都意在构建自己的移动信息服务平台。通过企业内部的移动信息服