论文部分内容阅读
篇章关系自动识别是自然语言处理领域一项非常具有挑战性的任务,该任务通过挖掘自然语言文本之间的结构信息、语义信息和词信息等来识别文本单元之间的逻辑关系,对自动问答系统、机器自动文摘、文本蕴含等都具有十分重要的实践和指导意义。根据文本单元中是否存在连接词可将篇章关系分为显式篇章关系和隐式篇章关系两种。显式篇章关系仅仅根据连接词就可以轻易分辨出文本之间的关系,而隐式篇章关系由于连接词的缺失使得其自动识别成为一个难点。目前,隐式篇章关系识别主要采用有监督机器学习的方法,对候选关系实例的表示也处于探索阶段。然而有监督学习需要大量的人工标注数据来增强模型的可靠性和健壮性,考虑到人工标注数据难度大、代价高的困境,本文首次提出基于自训练和互训练的半监督策略来识别隐式篇章关系,并对候选关系实例的表示进行了进一步探索。本文研究内容主要包括三部分:(1)用The Penn Discourse Treebank (PDTB)2.0作为研究载体,提取First-Last-First3、Inquirer Tags、产生式规则、依赖式规则、词的极性,动词特征、情态动词、实体特征、一元词对特征共9种特征以及特征之间的组合来表示候选关系实例。(2)用有监督的方法对隐式篇章关系进行分类,实验结果表明,结构信息和语义信息相结合能取得比单一特征更好的效果。我们的结果比baseline提高了一到两个百分点。(3)根据有监督的实验结果,选取效果最好的组合特征构建基于自训练和互训练的半监督模型,利用少量标注数据和大量的无标注数据来识别隐式篇章关系,并对不同大小的标注数据集下的有监督模型、自训练模型、互训练模型的实验结果进行对比。结论表明,少量标注数据的情况下,半监督策略能取得更好的效果。