论文部分内容阅读
九十年代以前,机器翻译的方法可以分为:直译型、转换型和基于中间语言型。进入九十年代以来,机器翻译领域出现了许多新的翻译方法和翻译模型,其中,主要有基于统计的机译系统和基于实例的机译系统,而这两种机器翻译都需要大规模的语料库支撑。另外由于汉语的复杂性,汉语分析是汉外机器翻译的一大难点。研究一种适合计算机处理的汉语分析方法有助于今后“汉到外”的机器翻译研究。本文在前人工作的基础上,结合汉语的特点,提出一种基于规则和统计相结合的汉语分析方法。论文的主要工作包括: 一、在进行分析时,既使用语法总结出来的规则,又利用语料统计的结果,同时兼顾了实例分析方法的优点。 二、对于汉语分词,采用了基于Maximum Matching(MM)的双向最大匹配法,并辅以基于统计信息的歧义字段切分处理。重点讨论了交集型歧义切分字段与多义组合型歧义切分字段的消歧处理。 三、对于汉语短语的识别与标注采用了规则和统计相结合的方法。 四、根据汉语的副词、助词、时间短语、上下文信息,总结出汉语的体态信息和时间信息,给出了汉语时间抽取和体态分析算法。 五、将规则的基本形式定义为条件动作对,采用多行描述,使得规则易于扩充,易于机器解释执行。同时,对整个规则库按上下文无关文法部分划分为规则块,即将上下文无关文法部分相同的规则放在一个规则块中,然后在规则块内根据规则优先级由高到底进行排序。 六、采用了以词汇语义为基础,把词典设计成词汇信息参数+与该词有关的个性规则的形式。