海量语言模型的研究及其在机器翻译中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:chinajovi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语言模型的主要应用领域之一,语言模型有助于机器翻译时选择更符合目标语言习惯的翻译项,研究结果表明,语言模型训练语料的增大可以稳定地提高翻译的效果。故海量语言模型成为近年来统计语言模型研究的一个热点。本文对统计语言模型的重要技术和发展脉络进行了整理和分析,并在此基础上设计并实现了一套海量语言模型训练工具和一组海量语言模型调用接口,并把在Google Web 1T语料库上训练得到的海量语言模型应用到机器翻译中。首先,我们设计并实现了可用于Google Web 1T语料库的海量语言模型训练工具。通过采用紧凑合理的数据结构、更简单的平滑算法、概率离散化等方法来优化空间代价,提高性能,使其可以真正在统计机器翻译系统中使用。通过此训练工具,我们可以完成语言建模任务,生成语言模型文件。接下来,我们设计并开发了供机器翻译等自然语言应用调用海量语言模型的接口。通过这些接口,其他自然语言应用可以访问已经生成的语言模型,获取词串的概率。针对不同的需求,提供有以下三种语言模型调用方式:通过动态链接库直接调用;通过与语言模型服务器通信来调用;通过与分布式语言模型服务器通信来调用。动态链接库的调用方式效率最高;语言模型服务器对客户端的要求较少,方便了客户端的开发;分布式语言模型服务器通过并行技术来提高I/O带宽,在提高性能的同时降低了对服务器的内存要求。最后,我们在机器翻译系统中使用上述接口来访问基于Google Web 1T的海量语言模型。在NIST2008机器翻译评测测试语料上,机器翻译系统的BLEU得分,从20.54提高到21.96,提高约7%。初步体现了海量语言模型对机器翻译的帮助。
其他文献
本系统是运用可视化编程工具Delphi开发并结合SHA-1的信息安全认证技术的题库管理系统.利用Delphi所提供的各种面向对象的开发工具,建立系统应用原型,然后进行需求迭代,不断
随着互联网及多媒体技术的飞速发展,数字图像数量快速增长。如何快速、有效地从海量图像数据库中检索出所需要的图像已显得日益重要,这也使得图像检索技术受到广泛关注。90年
传统的关系数据库采用关系模型作为数据的组织方式,其中的关系模型是以布尔逻辑和精确的数据工具为基础,不能表示模糊的、不确定性的信息。因此,当前的DBMS(数据库管理系统)
在所有生物特征里面,人脸特征是最普遍和是容易获取的。所以,人脸识别一直都是模式识别和图像处理领域最热门的课题之一。本文主要研究了基于主元分析及fisher准则的三维人脸
随着计算机科学技术的飞速发展,数据挖掘技术成为数据库、数据仓库领域最前沿的研究方向之一,它作为信息科学领域的前沿研究课题之一,是解决数据丰富而知识贫乏的有效途径,关
随着计算机技术的快速发展,到21世纪,嵌入式技术正进入充满机遇的阶段,嵌入式操作系统也逐渐壮大和成熟,已经被广泛应用到各个领域中,包括从小型手持设备(电子表、PDA和MP3播
三维地形的实时绘制技术是虚拟环境、地理信息系统以及军事仿真应用中的重要组成部分。由于表示地形的三角形数量大和硬件能力的限制,绘制不能达到实时。构建地形的多分辨率
聚类作为数据挖掘的一个重要领域,近年来倍受人们的关注。它能够作为一个独立的分析工具获得数据的分布情况,观察每一类数据的特征,集中对特定的聚类集合作进一步地分析。聚类技
学位
今年,随着美国金融危机给全球经济带来的影响进一步扩展,我国经济也受到严重的冲击,尤其是我国银行业必须得面对严峻考验,提高银行的信誉和形象,以面对金融危机的全球化带来