论文部分内容阅读
近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语言模型的主要应用领域之一,语言模型有助于机器翻译时选择更符合目标语言习惯的翻译项,研究结果表明,语言模型训练语料的增大可以稳定地提高翻译的效果。故海量语言模型成为近年来统计语言模型研究的一个热点。本文对统计语言模型的重要技术和发展脉络进行了整理和分析,并在此基础上设计并实现了一套海量语言模型训练工具和一组海量语言模型调用接口,并把在Google Web 1T语料库上训练得到的海量语言模型应用到机器翻译中。首先,我们设计并实现了可用于Google Web 1T语料库的海量语言模型训练工具。通过采用紧凑合理的数据结构、更简单的平滑算法、概率离散化等方法来优化空间代价,提高性能,使其可以真正在统计机器翻译系统中使用。通过此训练工具,我们可以完成语言建模任务,生成语言模型文件。接下来,我们设计并开发了供机器翻译等自然语言应用调用海量语言模型的接口。通过这些接口,其他自然语言应用可以访问已经生成的语言模型,获取词串的概率。针对不同的需求,提供有以下三种语言模型调用方式:通过动态链接库直接调用;通过与语言模型服务器通信来调用;通过与分布式语言模型服务器通信来调用。动态链接库的调用方式效率最高;语言模型服务器对客户端的要求较少,方便了客户端的开发;分布式语言模型服务器通过并行技术来提高I/O带宽,在提高性能的同时降低了对服务器的内存要求。最后,我们在机器翻译系统中使用上述接口来访问基于Google Web 1T的海量语言模型。在NIST2008机器翻译评测测试语料上,机器翻译系统的BLEU得分,从20.54提高到21.96,提高约7%。初步体现了海量语言模型对机器翻译的帮助。