论文部分内容阅读
Web的发展使得电子文档数目巨大且迅猛增长,大量的信息存在于非结构化的自然语言文档中,为了能高效地利用存在于自然语言文本中的信息,信息抽取技术提供了一条有效的途径,利用它可以将非结构的文本转化为结构化的信息,以便于信息的后续处理(如:数据挖掘等)。信息抽取系统的实现涉及自然语言处理的一系列难点,是当前自然语言处理的一个研究热点。本文主要基于统计学习方法,围绕实现中文信息抽取过程的几个关键问题展开研究,主要工作包括:
1.提出一种基于层叠条件随机场模型的中文命名实体识别算法。条件随机场是一种新的概率无向图模型,本论文在充分利用条件随机场模型优势的基础上,结合中文命名实体的特点,设计了一种层叠条件随机场模型用于中文命名实体的识别。在层叠条件随机场模型中,低层模型的识别结果将传递到高层模型,为高层条件随机场模型对复杂命名实体的识别提供决策支持。实验结果显示,该算法取得了很好的识别效果。
2.提出一种基于大间隔方法的中文组块识别算法。首先给出了中文组块的定义,将中文组块识别问题转化为序列化标注问题;然后根据大间隔思想给出判别式的序列化标注函数的优化目标和训练算法,并针对中文组块识别问题,设计了一种改进的F1损失函数,使得F1损失值能依据每个句子的实际长度而相应缩放,实现间隔值的动态调整,从而能够引入更有效的约束不等式。通过在LDC的CTB4数据集上的实验数据显示,该算法优于当前的其它中文组块分析算法。
3.提出一种有监督的关联聚类算法实现对中文实体提及的指代消解。首先将指代消解过程看成图的关联聚类问题,它从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指决策;然后给出了关联聚类的推导算法;最后设计了一种基于梯度下降的特征参数学习算法,实现从训练语料中自动学习各个特征的权值,从而使得训练出的特征参数能够较好的拟合关联聚类的目标。在ACE中文语料上的实验结果显示,该算法优于传统的“分类—聚类”指代消解学习算法。
4.针对当前中文指代标注训练语料非常缺乏的现状,提出一种无监督聚类算法实现对中文实体提及的指代消解。通过将指代消解问题转化为图划分问题,引入一个有效的模块函数作为目标函数实现对图的自动划分,依据该函数值来自动选择最优的聚类数目,并设计了基于贪心法的聚类算法。聚类过程避免了阈值选择问题,是一种有效可行的无监督指代消解算法。
5.提出一种基于新的合成核的中文实体关系抽取方法。论文首先设计了一种能够直接利用浅层语言特征的混合谱核来描述关系实例的上下文,并给出了基于广义后缀树的高效核函数值计算方法;然后再通过与实体核的组合生成合成核,该合成核既表示了两个关系实例出现的上下文之间的相似特征,又考虑了两个实体对之间的相似特征,核的计算不需要依赖于中文句法分析结果,且具有较低的计算复杂度。在ACE中文语料上的实验结果显示,基于这种新的合成核的中文关系抽取方法获得了较好的实验结果。