基于多层条件随机场模型的自然语言序列标注研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:hlayumi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列标注问题是自然语言处理领域的一个非常常见的任务,从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务,都可以看作是典型的序列标注问题。序列标注问题具有样本间关联紧密,样本的标记间相关性强的特点,传统的单点分类器方法难以获得整个序列的最优标记。条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。   但自然语言本身的特性决定了自然语言标注问题特有的两大难点:任务标记数目庞大、多任务间关联性强。而另一方面,条件随机场模型有着比较高的训练复杂度,并且这一复杂度随任务标记数目和模型结构复杂度的增加而大幅增加。这使得条件随机场模型应用于词性标注等具有大标记集的真实任务、或者一体化处理多个关联任务时,都面临计算量过大的问题。   本文在普通线性链条件随机场的基础上,提出了多层条件随机场模型,该模型各个分层都是线性链结构,在训练阶段将层间特征引入各分层,每层平行独立训练,解码阶段多层联合求解最优联合标记。这使得多层条件随机场模型在大大降低模型训练复杂度的同时,具有多层联合标定的能力。   论文结合具体的自然语言序列标注任务,研究了多层条件随机场模型在自然语言序列标注问题中的几种典型应用,主要包括:   [1]利用多层条件随机场模型处理可分层的大标记集任务   自然语言处理中像实体识别、组块分析之类的任务,可以分解为分割与分类两个关联的子问题。利用多层条件随机场模型处理这类任务,可以利用两个分层模型分别处理分割和分类任务,这样既大大降低了模型的训练复杂度,同时也通过层间关联的引入和两层联合解码保证了模型的标注性能。   [2]结合ECOC编码技术与多层条件随机场模型处理大标记集任务   对于像词性标注这种不具备明显可分层特点的大标记集任务,本文提出了结合ECOC编码技术的多层条件随机场标注方法,通过ECOC编码技术将大标记集分为若干个层级的小标记集,然后利用多层条件随机场模型处理。这种方法既可以降低训练复杂度,又能引入编码位元间的关联,避免了ECOC方法与普通线性链条件随机场模型结合时过强的位元间独立假设。   [3]利用多层条件随机场模型处理多任务一体化标注   多层条件随机场模型将前层标记作为观测特征引入后层模型,并采用多层联合解码算法。这使得该模型在不改变线性链模型结构的情况下,可以引入层间关联关系,实现多层任务的联合标注。模型结构的简单性使得多层条件随机场模型可以应用于多任务一体化标注的大规模实际任务。   在实际的自然语言序列标注任务上的实验表明,多层条件随机场模型能很好地应用于上述三类应用任务,解决目前基于条件随机场模型的方法处理这三类问题时的不足。
其他文献
随着互联网带宽的优化,网络传输、视频压缩等技术的创新,视频已成为互联网最为重要的应用之一,是互联网流量主要贡献者。互联网视频访问模型不仅是视频分发缓存策略与系统设计实
最近五年内,在大量生物医学研究问题的驱动下,整体蛋白质的鉴定技术获得了快速发展:高通量的分离技术使得一次研究中可以同时鉴定到超过1,000个完整的蛋白质;高精度的质谱技术大
模型检测是一种自动完成性质验证的算法过程,模型检测器是模型检测算法的工具实现,可用来检验系统是否满足某些性质,如可达性、安全性等,可以及时发现问题,更改系统设计中的缺陷,避
学位
随着互联网技术的不断发展,大量电子文档的出现,知识的载体由过去的纸质文档转变成电子文档,术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重,利
数据包分类技术是许多网络关键技术的基础,涉及到网络的控制、性能、安全、管理等多方面内容,已经广泛应用于许多不同的场合,是未来网络发展主要研究的基础内容之一。研究与设计
三维人体运动捕获技术是计算机视觉、计算机图形学以及虚拟现实等研究领域中一个备受关注的前沿方向,在计算机动画、人体运动仿真、生物运动力学分析、医疗康复等方面具有广
虚拟林业技术已经在农林业生产、生态研究、景观设计和游戏娱乐等领域有了广泛的应用,并带来了巨大的效益。随着计算机软硬件水平的提高、实时图形学理论和科学可视化技术的不
针对在安全领域中单纯的防火墙和入侵检测系统都存在着局限性,入侵防御系统应运而生,它是继防火墙和入侵检测技术之后的新一代信息安全保障技术。它是实时地保护网络及系统不受
随着科学技术的不断发展,视频处理技术得到越来越广泛的应用。视频处理技术的研究内容包括运动目标检测和物体跟踪等很多领域,视频处理技术的研究成果可以广泛地应用在各个领域
对于整个通信系统而言,卫星移动通信系统是地面蜂窝系统的一种必要的补充和延伸,尤其在抢险救灾、应急指挥、海洋渔业等领域发挥重要作用。卫星移动通信系统主要由卫星、地面站