论文部分内容阅读
汉语句法分析是中文信息处理的关键技术,是对汉语进行深层次理解的基础。句法分析性能的提高对于机器翻译、信息检索、信息抽取等应用技术性能的提高都会有巨大的推动作用。目前汉语句法分析技术还不能满足中文信息处理的要求,所以对汉语句法分析的研究具有重要的实际意义。 本文提出了一种基于最长名词短语前处理的统计句法分析方法,将最长名词短语的识别与分析从句法分析中独立出来,同时使用基于语料库的统计学习方法,对汉语句法分析技术进行了探索。本文工作分三部分进行,具体内容如下: 首先,进行了对最长名词短语的分析工作。最长名词短语是名词短语中最重要的一类,它的识别与分析可以更好的帮助人们理解自然语言中的句子。由于传统的句法分析对最长名词短语的处理不够理想,本文对最长名词短语进行专门处理,以降低句法分析的复杂度。根据汉语最长名词短语的句法特点,本文提出了一种基于chunk parsing的最长名词短语分析方法,有效的提高了最长名词短语的分析效果,解决了最长名词短语对句法分析的影响。 其次,提出了一种基于层叠条件随机场模型的汉语句法分析方法。与用一个单一模型来识别所有短语的方法不同,该方法将句法分析过程分解为两个阶段:一是句子中句法单元的识别,二是句法单元之间关系的分析。这样可以对不同的子问题选用不同的模型和搜索策略进行处理,同时也降低了句子分析的难度。本文选用层叠条件随机场作为多层分析模型。 最后,在解码方式上本文使用局部最优化的搜索算法对句子进行解码。该算法利用广度优先策略寻找局部最优解,很好地缓解了传统确定性分析算法中的错误蔓延问题。 在第一届汉语句法分析评测的数据集上进行了实验,实验结果表明基于层叠条件随机场的汉语句法分析方法显著提高了句法分析的精确率和召回率,有效降低了句法分析的复杂度,使系统处理文本的速度得到了提高。