基于轻量级句法信息的中文语义角色标注方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jbhjyh12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,这种复杂句法分析产生的错误信息不仅在语义角色标注阶段很难被恢复,而且还为系统引入了大量噪音。而从另一个方面来说,复杂句法分析的结果富含了大量信息,对于语义角色标注任务而言,这些信息也不一定是完全必需的。因此,基于中文语义角色标注的研究现状,本文分别尝试为语义角色标注提供不同形式和数量的句法信息,探求适合中文语义角色标注任务的轻量级句法信息形式。  本文的主要工作包括以下几方面:  1)在基于依存的语义角色标注任务中,提出基于依存树距离的论元识别方法。此方法充分利用依存树中论元分布局部性显著的特点,基于依存树上节点之间的距离来识别论元。在此基础上,使用机器学习方法进行论元分类。这种将基于规则的论元识别与基于机器学习的论元分类相结合的方法,充分发挥了规则和机器学习各自的优点,在提高系统角色标注性能的同时,极大改善了系统的时间性能。  2)尝试探究新的句法信息表示形式作为基于依存的语义角色标注的输入,构建了基于中心词提取的语义依存分析模型。该模型没有使用传统的句法信息作为语义角色标注的输入,而是借助句子压缩手段获得句子中心词,将这些中心词和依附于中心词的信息作为一种新的句法信息表示形式为语义角色标注提供依据,从而避免了传统方法中语义角色标注对句法分析的依赖。  3)在基于短语结构的语义角色标注研究中,本文通过构造浅层句法分析器,将语义角色标注建立在了浅层句法分析基础上。使用轻量级的正确率高的浅层句法分析的结果代替正确率较低的完全句法分析的结果作为语义角色标注的输入。实验表明,在当前完全句法分析性能不佳的情况下,基于浅层句法分析的语义角色标注系统F值超过了现有最好的基于自动完全句法分析的语义角色标注系统。  在以上实验的基础上,本文还尝试采用两种方式来缓解机器学习方法中的数据稀疏问题。一方面是引入聚类思想,将聚类结果以特征的形式反映到语义角色标注过程中;另一方面是充分利用汉语特点,引入构词法相关特征。实验表明,两种方法对于提高系统泛化能力和标注效果都起到了十分积极的作用。  综合以上实验结果,本文认为要想取得高质量的语义分析结果,较深层的句法信息依然是有必要的,当使用正确句法信息时,基于依存的语义角色标注性能要高于基于中心词提取的语义依存分析系统。但在使用自动句法信息条件下,基于中心词提取的语义依存分析系统与基于依存的语义角色标注系统性能相当,但更具有时间优势,验证了本文所提出的基于中心词提取的语义依存分析方法是在现阶段自动依存句法分析性能不高情况下进行语义角色标注的一种有效方法。在基于短语结构的语义角色标注研究方面,本文的实验结果则证明了正确率高的浅层句法分析可以为语义角色标注提供高质量的有效信息,在其基础上的语义角色标注性能要优于现阶段基于自动完全句法分析的语义角色标注的性能。
其他文献
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询  关键词一般较短(平均长度2-3),
软件开发是一个迭代的过程,通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具,包括编辑器、编译器、链接器、汇编器、函数库、调试器等
基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性,如擦后写、擦写粒度不对称、擦写
随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注
随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、
作为当前互联网最主要的传输层协议之一,TCP为大量的互联网应用提供数据包可靠传输服务。TCP性能直接影响互联网业务的服务质量,TCP数据传输性能瓶颈分析与优化一直来都是网络
在当今社会中国际化越来越明显,语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题,通过计算机来辅
近年来,在油气开发过程中,地震资料在开发井的设计中使用越来越广泛,地震资料中丰富的区块、测井等信息对油气开发起到了很好的指导作用。但是,在使用这些信息的过程中,由于对很多
第一原理计算是科学计算中最重要的一类计算。它以原子位置坐标为基本参数,通过平面波展开求解Kohn-Sham方程,得到精确的材料的光、电、磁等物理性质。然而其求解速度和求解规
随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合