论文部分内容阅读
语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,这种复杂句法分析产生的错误信息不仅在语义角色标注阶段很难被恢复,而且还为系统引入了大量噪音。而从另一个方面来说,复杂句法分析的结果富含了大量信息,对于语义角色标注任务而言,这些信息也不一定是完全必需的。因此,基于中文语义角色标注的研究现状,本文分别尝试为语义角色标注提供不同形式和数量的句法信息,探求适合中文语义角色标注任务的轻量级句法信息形式。 本文的主要工作包括以下几方面: 1)在基于依存的语义角色标注任务中,提出基于依存树距离的论元识别方法。此方法充分利用依存树中论元分布局部性显著的特点,基于依存树上节点之间的距离来识别论元。在此基础上,使用机器学习方法进行论元分类。这种将基于规则的论元识别与基于机器学习的论元分类相结合的方法,充分发挥了规则和机器学习各自的优点,在提高系统角色标注性能的同时,极大改善了系统的时间性能。 2)尝试探究新的句法信息表示形式作为基于依存的语义角色标注的输入,构建了基于中心词提取的语义依存分析模型。该模型没有使用传统的句法信息作为语义角色标注的输入,而是借助句子压缩手段获得句子中心词,将这些中心词和依附于中心词的信息作为一种新的句法信息表示形式为语义角色标注提供依据,从而避免了传统方法中语义角色标注对句法分析的依赖。 3)在基于短语结构的语义角色标注研究中,本文通过构造浅层句法分析器,将语义角色标注建立在了浅层句法分析基础上。使用轻量级的正确率高的浅层句法分析的结果代替正确率较低的完全句法分析的结果作为语义角色标注的输入。实验表明,在当前完全句法分析性能不佳的情况下,基于浅层句法分析的语义角色标注系统F值超过了现有最好的基于自动完全句法分析的语义角色标注系统。 在以上实验的基础上,本文还尝试采用两种方式来缓解机器学习方法中的数据稀疏问题。一方面是引入聚类思想,将聚类结果以特征的形式反映到语义角色标注过程中;另一方面是充分利用汉语特点,引入构词法相关特征。实验表明,两种方法对于提高系统泛化能力和标注效果都起到了十分积极的作用。 综合以上实验结果,本文认为要想取得高质量的语义分析结果,较深层的句法信息依然是有必要的,当使用正确句法信息时,基于依存的语义角色标注性能要高于基于中心词提取的语义依存分析系统。但在使用自动句法信息条件下,基于中心词提取的语义依存分析系统与基于依存的语义角色标注系统性能相当,但更具有时间优势,验证了本文所提出的基于中心词提取的语义依存分析方法是在现阶段自动依存句法分析性能不高情况下进行语义角色标注的一种有效方法。在基于短语结构的语义角色标注研究方面,本文的实验结果则证明了正确率高的浅层句法分析可以为语义角色标注提供高质量的有效信息,在其基础上的语义角色标注性能要优于现阶段基于自动完全句法分析的语义角色标注的性能。