论文部分内容阅读
词性标注是机器翻译过程中的关键环节,其主要作用是确定句子中各单词的词性并加以标注。词性标注研究的重点是如何确定句子中兼类词的词性。词性标注技术同样在文本自动检索、文本分类、文本识别、语音识别等实际应用中有着重要的作用。
本文首先分析了基于规则和基于统计的词性标注方法,比较全面的对比了两种方法的特点。然后,系统介绍了基于N元概率模型和隐马尔科夫模型(HMM)的词性标注方法。最后,实现了一个基于隐马尔科夫模型的英语词性标注系统。
本文引入了规则与统计相结合的处理机制,解决未登录词参数难以直接获取的问题;提出了短语实例优先处理的标注策略,准确确定短语中各单词的词性,从而较好地解决了兼类词词性标注的问题。综合以上两种方法,获得了良好的处理效果。