论文部分内容阅读
有关翻译等价对的自动获取对于改进统计机器翻译的质量,以及对跨语言检索,自动问答等领域的实际应用都有着非常重要的意义。
基于统计的翻译等价对的自动抽取一般有两种典型的方法。一种是基于假设-检验的,另一种是基于统计机器翻译的。
基于假设-检验的翻译等价对抽取方法虽然具有计算简单且可扩展性好的优点,但是这种方法中存在的间接依赖问题严重地影响了抽取得到翻译等价对的正确率。基于此问题,本文提出了一种基于迭代算法的翻译等价对自动抽取方法。基于迭代的抽取有效地解决了间接依赖的问题。在本文进行的有关片假名的翻译等价自动抽取的实验中,结果表明了:无论采用什么样的关联度计算模型,用基于迭代算法的翻译等价对自动抽取方法抽取得到的正确率都明显好于传统的基于假设-检验的方法。
基于统计机器翻译的翻译等价对的自动抽取方法的研究对于改进统计机器翻译系统有着非常重要的意义。尤其活跃的一子课题是有关命名实体翻译等价对的自动抽取方面的工作。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。在本文中,提出了一种只要求对语料库中源语言进行了命名实体标注,目标语言不需标注,然后利用统计机器翻译系统训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用本文的方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。