基于轻量级句法信息的中文语义角色标注方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：jbhjyh12345678

【摘要】

：

语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,

【作者】

：

王鑫

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

语义角色标注句法信息语义依存浅层句法分析中心词提取机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,这种复杂句法分析产生的错误信息不仅在语义角色标注阶段很难被恢复,而且还为系统引入了大量噪音。而从另一个方面来说,复杂句法分析的结果富含了大量信息,对于语义角色标注任务而言,这些信息也不一定是完全必需的。因此,基于中文语义角色标注的研究现状,本文分别尝试为语义角色标注提供不同形式和数量的句法信息,探求适合中文语义角色标注任务的轻量级句法信息形式。　　本文的主要工作包括以下几方面:　　1)在基于依存的语义角色标注任务中,提出基于依存树距离的论元识别方法。此方法充分利用依存树中论元分布局部性显著的特点,基于依存树上节点之间的距离来识别论元。在此基础上,使用机器学习方法进行论元分类。这种将基于规则的论元识别与基于机器学习的论元分类相结合的方法,充分发挥了规则和机器学习各自的优点,在提高系统角色标注性能的同时,极大改善了系统的时间性能。　　2)尝试探究新的句法信息表示形式作为基于依存的语义角色标注的输入,构建了基于中心词提取的语义依存分析模型。该模型没有使用传统的句法信息作为语义角色标注的输入,而是借助句子压缩手段获得句子中心词,将这些中心词和依附于中心词的信息作为一种新的句法信息表示形式为语义角色标注提供依据,从而避免了传统方法中语义角色标注对句法分析的依赖。　　3)在基于短语结构的语义角色标注研究中,本文通过构造浅层句法分析器,将语义角色标注建立在了浅层句法分析基础上。使用轻量级的正确率高的浅层句法分析的结果代替正确率较低的完全句法分析的结果作为语义角色标注的输入。实验表明,在当前完全句法分析性能不佳的情况下,基于浅层句法分析的语义角色标注系统F值超过了现有最好的基于自动完全句法分析的语义角色标注系统。　　在以上实验的基础上,本文还尝试采用两种方式来缓解机器学习方法中的数据稀疏问题。一方面是引入聚类思想,将聚类结果以特征的形式反映到语义角色标注过程中;另一方面是充分利用汉语特点,引入构词法相关特征。实验表明,两种方法对于提高系统泛化能力和标注效果都起到了十分积极的作用。　　综合以上实验结果,本文认为要想取得高质量的语义分析结果,较深层的句法信息依然是有必要的,当使用正确句法信息时,基于依存的语义角色标注性能要高于基于中心词提取的语义依存分析系统。但在使用自动句法信息条件下,基于中心词提取的语义依存分析系统与基于依存的语义角色标注系统性能相当,但更具有时间优势,验证了本文所提出的基于中心词提取的语义依存分析方法是在现阶段自动依存句法分析性能不高情况下进行语义角色标注的一种有效方法。在基于短语结构的语义角色标注研究方面,本文的实验结果则证明了正确率高的浅层句法分析可以为语义角色标注提供高质量的有效信息,在其基础上的语义角色标注性能要优于现阶段基于自动完全句法分析的语义角色标注的性能。

其他文献

搜索引擎查询分类方法的研究与实现

查询意图被定义为查询背后的信息需求，正确分类用户的查询意图，能够帮助商业化搜索引擎优化检索结果，提供更加准确的检索服务。由于用户的查询　　关键词一般较短(平均长度2-3)，

学位

查询分类商业意图标签传播算法检索服务

一种面向UniCore体系结构的集成开发环境的设计与实现

软件开发是一个迭代的过程，通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具，包括编辑器、编译器、链接器、汇编器、函数库、调试器等

学位

集成开发环境UniCore体系结构微处理器嵌入式系统

面向固态盘的存储系统关键技术研究

基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性，如擦后写、擦写粒度不对称、擦写

学位

固态盘缓存系统软件设计硬件开发流水线式合并算法

海量全文数据检索系统中增量式结果缓存的设计与实现

随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注

学位

文档资源数据挖掘缓存替换程序语言

基于多目标决策的产品搜索系统的设计与实现

随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、

学位

多目标决策产品搜索离散选择模型特征选取用户生成内容电子商务

传输层性能诊断与优化

作为当前互联网最主要的传输层协议之一，TCP为大量的互联网应用提供数据包可靠传输服务。TCP性能直接影响互联网业务的服务质量，TCP数据传输性能瓶颈分析与优化一直来都是网络

学位

传输控制协议诊断技术性能优化设计理念

基于双模式融合的学生发音评价算法研究

在当今社会中国际化越来越明显，语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题，通过计算机来辅

学位

非母语学习发音评价双模态评分算法特征提取耦合隐马尔科夫

油藏储层量化描述与预测方法的研究和实现

近年来，在油气开发过程中，地震资料在开发井的设计中使用越来越广泛，地震资料中丰富的区块、测井等信息对油气开发起到了很好的指导作用。但是，在使用这些信息的过程中，由于对很多

学位

油气开发储层预测支持向量机线性判别地震属性模式识别

材料计算大规模异构并行算法研究与实现

第一原理计算是科学计算中最重要的一类计算。它以原子位置坐标为基本参数，通过平面波展开求解Kohn-Sham方程，得到精确的材料的光、电、磁等物理性质。然而其求解速度和求解规

学位

材料性能第一性原理计算软件开发异构环境并行处理局域密度近似法线性标度算法

基于结构链接分析的XML文档分类与聚类

随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合

学位

信息检索数据挖掘文档分类程序语言

基于轻量级句法信息的中文语义角色标注方法研究与实现

其他学术论文