论文部分内容阅读
词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。在词性标注时出现的错误会在后续自然语言处理链中被放大,正确标注词性对自然语言处理有非常重要的意义。本文的目的就是在文本分词的基础上,实现汉语词性标注,为后期词法分析和其它自然语言处理任务提供基础。本文首先阐述了汉语词性标注的研究现状及研究意义,然后在深入理解最大熵理论的基础上实现了基于最大熵的汉语词性标注系统,最后利用统计规则和词性限定方法对未登录词进行了进一步标注。利用不同模板将不同的上下文信息导入最大熵模型,构建了四个最大熵标注模型,选出具有最优标注效果的模板作为最终模板。为了简化模型,采用了三种不同的特征选取方法精简最大熵模型的候选特征,为了进一步提高词性标注正确率,采用了规则和词性限定法,结合最大熵对未登录词做了进一步标注。论文给出了最大熵标注模型的算法,并给出了标注结果,及对未登录词进一步标注后的结果。词性标注比较复杂,由于最大熵可以充分利用词的不同层次的上下文信息,能较好地解决复杂问题,因此用最大熵进行词性标注,取得了较好的效果。实验结果表明,用最大熵进行中文词词性标注是有效的:开试测试正确率为94.96%,未登录词的标注正确率为63.32%。本文的研究成果可应用于实际翻译系统中,为自然语言后期处理提供了基础。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。