论文部分内容阅读
在汉语语法体系中,有标复句具有非常重要的地位,一直为学界所关注。在语法学界相关理论成果较多。但是,从中文信息处理的角度来看,汉语复句的相关成果还较少,复句信息工程也未取得创新性的突破和进展。我们分析其中的原因,大体上可以概括为两个方面:首先,现有很多的复句语法研究成果,是面向人的语法研究,而不是面向机器的语法研究。因此,现有的诸多研究成果并不能直接为复句信息处理提供直接支持;其次,现有的复句研究于某个句式的个案分析,以某类句型或汉语复句体系系统为研究对象的文献相当少,而复句的信息处理需要获取各复句类型之间在句法、语义上呈现出的共性与个性规则,现有的个案研究显然不能满足。当前,对汉语句子(特别是对有标复句)的自动分析与理解是整个中文信息处理遇到的瓶颈问题,要想推断中文信息处理向前发展,必须高度重视有标复句的自动分析与理解研究。本文就是在这种背景下,尝试以邢福义先生的复句分类系统及相关理论成果为基础,充分借鉴现有的复句研究成果,对有标复句的关联规律做形式化的处理,深入分析其内部语义特点,然后提炼出能够为中文信息处理所用的规律与规则,解决汉语复句信息处理中遇到的一些困难。为了提高分析的准确性,我们还在关联标记的判定、复句句型分析、复句层次关系计算等环节中,充分吸收了依存句法理论、复杂性理论、词向量Word2vec等当代自然语言处理前沿理论。本文研究的主体内容涉及四个部分:1、解决有标复句句法、语义自动分析中各干扰因素的影响。研究将表明,影响有标复句自动分析的因素主要有:分句与非分句的识别、关联标记的判定、复句形式与意义的匹配、近义复句的语用差异等等。我们拟应用邢福义先生的“小句中枢理论”,基于大规模标注语料样本,深入研究有标复句句法、语义自动分析中各干扰因素的影响提出行之有效的解决方案。2、建设面向复句中文信息处理的基础性资源库。从长远来看,复句的中文信息处理要想取得长足进展,面向复句信息处理的基础性语言资源建设必不可少。本文尝试借鉴依存语法的理念,结合汉语有标复句的实际情况设计出一个有标复句知识库。我们重点研究知识库的结构、关联标记词表、关联标记搭配、句式形式化、语义复杂化描写等问题。3、引入复杂网络理论,以关联标记与分句的核心论元为基础,深入研究分析有标复句在语义上呈现出的复杂网络特性。重点探讨了关联标记搭配格式的认定、搭配距离的计算、搭配能力的分析、聚集系数和度分布等问题。基于大规模的语料分析表明,在关联标记的搭配网络中,其距离(d)可以小至3.625,而其聚集系数(C)可以高至0.055,是一种小世界属性。在自然语言处理领域,WordNet毫无争议地被视为复杂网络。我们的研究表明,关联标记搭配网络的聚集系数大于WordNet的聚集系数。因此我们可以认为:关联标记搭配网络是一个具有小世界属性的复杂网络。4、借鉴依存句法分析来解决复句语义分析中的难题。我们聚焦于复句内部中各分句之间的语义关系,以依存结构树或者依存图的形式来描述复句的语义特征。通过关联标记词汇所隐含的语义框架来描述有标复句的语义关系。同时也充分利用核心谓词论元之间语义事实上或逻辑上的关系,摆脱有标复句在表层句法结构的束缚,深入其内部分句的语义网络,设计有标复句语义依存图原型系统。我们对转折复句中“虽然……但是……”句式的依存结构和语义关系进行实证研究。实验结果表明,该方法具有很好的效果。