论文部分内容阅读
序列标注问题是自然语言处理领域的一个非常常见的任务,从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务,都可以看作是典型的序列标注问题。序列标注问题具有样本间关联紧密,样本的标记间相关性强的特点,传统的单点分类器方法难以获得整个序列的最优标记。条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。
但自然语言本身的特性决定了自然语言标注问题特有的两大难点:任务标记数目庞大、多任务间关联性强。而另一方面,条件随机场模型有着比较高的训练复杂度,并且这一复杂度随任务标记数目和模型结构复杂度的增加而大幅增加。这使得条件随机场模型应用于词性标注等具有大标记集的真实任务、或者一体化处理多个关联任务时,都面临计算量过大的问题。
本文在普通线性链条件随机场的基础上,提出了多层条件随机场模型,该模型各个分层都是线性链结构,在训练阶段将层间特征引入各分层,每层平行独立训练,解码阶段多层联合求解最优联合标记。这使得多层条件随机场模型在大大降低模型训练复杂度的同时,具有多层联合标定的能力。
论文结合具体的自然语言序列标注任务,研究了多层条件随机场模型在自然语言序列标注问题中的几种典型应用,主要包括:
[1]利用多层条件随机场模型处理可分层的大标记集任务
自然语言处理中像实体识别、组块分析之类的任务,可以分解为分割与分类两个关联的子问题。利用多层条件随机场模型处理这类任务,可以利用两个分层模型分别处理分割和分类任务,这样既大大降低了模型的训练复杂度,同时也通过层间关联的引入和两层联合解码保证了模型的标注性能。
[2]结合ECOC编码技术与多层条件随机场模型处理大标记集任务
对于像词性标注这种不具备明显可分层特点的大标记集任务,本文提出了结合ECOC编码技术的多层条件随机场标注方法,通过ECOC编码技术将大标记集分为若干个层级的小标记集,然后利用多层条件随机场模型处理。这种方法既可以降低训练复杂度,又能引入编码位元间的关联,避免了ECOC方法与普通线性链条件随机场模型结合时过强的位元间独立假设。
[3]利用多层条件随机场模型处理多任务一体化标注
多层条件随机场模型将前层标记作为观测特征引入后层模型,并采用多层联合解码算法。这使得该模型在不改变线性链模型结构的情况下,可以引入层间关联关系,实现多层任务的联合标注。模型结构的简单性使得多层条件随机场模型可以应用于多任务一体化标注的大规模实际任务。
在实际的自然语言序列标注任务上的实验表明,多层条件随机场模型能很好地应用于上述三类应用任务,解决目前基于条件随机场模型的方法处理这三类问题时的不足。