论文部分内容阅读
句法分析是自然语言处理中的一个基本问题。许多自然语言处理中的任务,比如语义分析、机器翻译、信息抽取等,其完成的好坏依赖于句法分析的准确率。另一方面,话语是人与人之间交流的外在形式,做好话语的句法分析有助于理解人的思维。所以,对句法分析的研究有着重要的理论和实用价值。
汉语句法分析,由于起步较晚,加之训练树库的匮乏,其发展远不如英语句法分析。而且,目前汉语句法分析的技术还远不能满足各种信息处理系统的需求,所以对汉语句法分析的研究有着迫切的现实需求。
目前汉语句法分析的研究主要集中在两个方向,一个是改进英语句法分析中成熟的技术和模型,加入新的特征,移植到汉语句法分析中;另一个是将汉语句法分析看成是基本短语结构和复杂短语结构的识别过程,采用马尔科夫模型的相关理论进行分析。本文把句法分析分为K-Best和重排序两个阶段,主要研究有了多重结果后的重排序技术。本文的工作分为三个部分,具体内容如下:
1.概率CYK算法和概率Earley算法是概率上下文无关文法中有代表性的两个算法。本文在分析第一阶段,改进这两个算法,使其能输出K-Best结果,并根据各自算法的特性,引入合适的特征。
2.中心驱动模型改进了概率上下文无关文法,对规则的生成进行更合理的概率建模。本文在分析第二阶段,改进中心驱动模型,用改进后的模型实现重排序。
3.把机器学习理论运用到第二阶段的重排序中,采用基于树核的投票感知机算法来实现重排序,并对树核的理论进行合理的改进。