大规模统计语言模型实现技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：wheatsnow

【摘要】

：

统计语言模型是很多自然语言处理任务的重要模块。一般而言，用来训练语言模型的数据量越大，训练得到的语言模型质量越好。Google公司通过LDC向学术界公布了Web1T词频数据，这部分

【作者】

：

黄赟

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2008年期

【关键词】

：

自然语言处理大规模数据统计语言模型词频数据语料训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计语言模型是很多自然语言处理任务的重要模块。一般而言，用来训练语言模型的数据量越大，训练得到的语言模型质量越好。Google公司通过LDC向学术界公布了Web1T词频数据，这部分数据是从总共有1T个词的互联网网页上抽取得到的。然而，现在的软件包都无法处理这么大规模的数据，这已经成为语言模型发展的一个瓶颈。　　本文对大规模语言模型的难点和实现技术进行了研究，并针对Web1T语料实现了一套训练和使用工具。由于Web1T数据做了低频词过滤，本文还对其进行平滑时遇到的问题进行讨论，实现了适合大规模数据傻瓜平滑算法。　　具体来说，本文的工作主要包含以下内容：　　 1、研究并比较了基于n元语法语言模型的平滑算法　　基于n元语法的语言模型具有模型简单、效果良好的特点，是目前主流的语言模型建模方法。然而极大似然估计会对n元组的概率给出零值，所以需要对极大似然估计方法给出的结果进行平滑，修正错误的零值概率。本文研究了主流平滑算法，如Good-Turing平滑、Witten-Bell平滑和Kneser-Ney平滑等，并比较了各种平滑算法在实际语料上的效果。　　 2、实现了针对Web1T语料的平滑算法　　 Google发布的Web1T词频语料只包含n元组频次信息，并且做了低频词过滤，这使得现有的平滑算法公式中的参数无法求得。为了解决这个问题，本文利用zipf定律估计被过滤掉的不同元组的数目，研究和实现了适合大规模数据处理的傻瓜回退(Stupid Smoothing)平滑算法，并比较了傻瓜回退平滑算法和传统平滑算法的效果。　　 3、Google Web1T语料的训练和使用　　处理大规模文本需要资源过大是大规模语言模型需要解决的问题和难点。本文对大规模语言模型实现的难点进行了分析，考察了关键的实现技术，并讨论了各种技术方案的优缺点。针对语言模型训练时所需内存过大问题，本文采用分布式训练和索引技术使所需内存降到可以接受的程度。针对语言模型使用时所需内存过大问题，本文使用对测试集的过滤的方法去除无用数据，设计高效的TRIE树存储数据，并使用内存映射技术降低内存使用量。基于对大规模语言模型实现技术的研究，本文还实现了一个面向Web1T语料的训练和使用工具包，支持训练和使用Web1T语言模型。

其他文献

结构件内部裂纹缺陷的边缘检测及插值算法研究

基于CT图像的三维重建已成为目前国内外研究的热点,它利用在无损状态下获得的二维灰度图像,重建出符合人们视觉习惯的立体图像。内部裂纹缺陷具有不连续、不规则的特点,以前

学位

断层图像内部裂纹缺陷图像插值边缘检测小波变换阈值

基于旱情监测的无线传感器网络组建及性能研究

20世纪90年代以来，随着“普适计算”计算模式的出现，无线通信、嵌入式计算、传感器及微机电系统(MEMS)等技术的快速发展，具有感知能力、计算能力和无线网络通信能力的微型传感器

学位

无线传感器网络MESH型网络路由网络性能节点距离

用探索性结构方程模型进行因素分析及预测——在资产定价问题上的分析与实现

资产定价是金融市场发展与完善的一个核心问题，也一直是金融领域的一个基础性研究问题。但目前对影响收益率因素的选取及构造研究普遍存在因素选取任意；没有考虑因素之间相关关

学位

结构方程模型因子分析资产定价数据挖掘评价指标

工业生物技术数据仓库ETL系统的设计与实现

“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目，它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源，为该领域的科研人员和决

学位

工业生物技术数据仓库ETL系统元数据公共仓库元模型

结构体域优化的研究

在过去的几十年间，处理器主频与内存访问速度间的差距的日益增大，使得许多程序的性能瓶颈集中在内存访问，体系结构中引入了多级高速缓存的结构(cache)来解决内存访问的瓶颈，程序

学位

局部性优化数据重组域亲和性分析域优化收益量化关联结构体内存访问

基于智能Agent的工作流系统研究与应用

工作流技术对于推动企业技术进步和信息产业的发展起到举足轻重的作用,但是由于传统工作流管理系统普遍存在耦合程度高、灵活性低和缺乏智能性的缺点,己不能满足现代应用的需

学位

工作流技术Agent技术系统协商工作流管理

User2vec——线下店铺推荐的一种新方法

如今，推荐系统已成为一种与计算机学科和数据挖掘联系紧密的热门技术，在互联网行业中有着重要的地位。推荐系统可以挖掘用户偏好并向用户推荐商品，提高用户满意度和商家的收益。

学位

个性化推荐系统线下商铺word2vec算法协同过滤算法

以就业为导向的专业课程设置决策问题的研究

目前，提出高等职业专业课程设计应以满足产业界的要求为宗旨，即以就业为导向，以新的职业能力内涵为目标构建系统化的课程——即就业导向的职业能力系统化课程开发以成为一个新的

学位

不确定知识贝叶斯网效用函数信息价值高等职业教育

基于不完全约束的XML查询处理关键技术研究

XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的标准,受到越来越多的关注。各行各业都采用XML来描述本领域的信息。随着XML应用的不断扩展,XML数据量日益膨

学位

XML查询处理PSTP查询扩展DeweySamepath轴

松耦合分布式计算松弛事务的研究

经典的事务特性是保障并发过程正确性和可靠性的抽象准则，就是所谓的原子性、一致性、隔离性和持久性(ACID)。在基于Internet的分布式应用中，许多应用问题的理想化处理都可归结

学位

松散耦合松弛事务预期补偿代价时限非阻塞提交协议提交调度优化

大规模统计语言模型实现技术研究

其他学术论文