论文部分内容阅读
句际关系分析是篇章分析在句子层级的微观体现,在机器翻译、信息检索等自然语言处理领域发挥着重要作用。目前汉语篇章分析体系匮乏,句际关系自动分析技术还不成熟。本文借鉴英文修辞结构理论和宾州篇章树库,制定了一套新的汉语篇章分析以及标注体系,并据此构建了一个小规模的汉语句际关系标注语料库,进而基于此语料库来训练模型,构建汉语句际关系自动分析器。该分析器首先将句子切分为连读的基本篇章单元:然后利用层级结构分析器构造出句子的层级结构树;最后利用关系识别器标注树节点之间的关系类型。 本文采用SVM-H、SVM-F和SVM-R三种不同的方法自动构建汉语句子层级结构树;利用支持向量机分类器对汉语小句间的关系进行自动识别。在人工标注的语料上进行五折交叉验证,实验结果表明,本文提出的汉语句子层级结构分析方法SVM-R与基准模型SVM-H相比,更易于捕捉到篇章单元之间结构关联性相对强弱的信息,显著提高了层级结构树构建的效果。总体上,结构分析器的微正确率达到了61.7%;关系识别器在预定义的5类关系上进行识别的正确率达到67.3%,在预定义的17个子类上的正确率为53.8%;整个汉语句际关系自动分析系统的正确率为41.1%。目前,汉语篇章分析的研究刚刚起步,自动分析的效果还有很大的提升空间。