论文部分内容阅读
伴随着丰富的标注资源的建立以及多次国际评测的开展,语义角色标注任务得到了较全面的研究,其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解决,长期以来,国内外学者在特征工程的选择上做了不少详尽的研究,并取得很好的效果。
近几年大部分有指导语义角色标注系统的研究都是基于宾州大学命题库标注体系,这种资源的统一一方面方便于各种研究方法的对比,有利于研究的发展,另一方面也可能会导致研究方法过于拘泥于该语料库,对语料库产生依赖。近年来,北京大学开发出一套新的标注语料-北大网库,本文首先将传统研究方法应用于新语料,检验研究方法、尤其是特征选择是否对标注语料具有依赖性,实验中我们发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。
此外,由于一方面有指导语义角色标注对标注资源的需求很大,而标注语料的获取并不容易;另一方面使用有指导学习方法得到的标注系统在新领域的效果下降很快,领域适应性不高,本文尝试将自学习,协同训练两种半指导方法应用于语义角色标注任务中。与国际上已有的相关研究相比,本文重点讨论如何保证在每次学习过程中所添加数据的质量。主要研究方法是针对模型中显式的和隐含的一些参数就行调试。在自学习过程中,我们设计使用了多种三种不同的选择策略,包括固定阈值、动态阈值以及Top-N%选择方法;多种不同的添加策略,包括不删除策略、删除策略及修改策略等。对于协同训练过程,本文首先使用自动特征选择方法挑选出两个相互独立的特征集合,分别采用了基于概率值、基于标注统一以及基于分工合作三种协同训练的策略进行数据选择。实验证明,根据语义角色标注任务的特点,通过对半指导学习模型进行适当调整,可以使标注系统在新领域获的分类效果得到显著提高。
我们使用的是北大网库(基于北大汉语句法树标注体系)训练得到的初始分类系统,在测试两种半指导学习方法的有效性方面,我们尝试使用了两种不同的标注体系的语料,一种是北大网库数据,另一种是PropBank测试数据。实验结果证明半指导学习方法不仅在同标注体系的新语料中表现良好,而且同样能适应适应标注体系不一样的情况,系统效果有所提高。