大规模统计语言模型实现技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:wheatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计语言模型是很多自然语言处理任务的重要模块。一般而言,用来训练语言模型的数据量越大,训练得到的语言模型质量越好。Google公司通过LDC向学术界公布了Web1T词频数据,这部分数据是从总共有1T个词的互联网网页上抽取得到的。然而,现在的软件包都无法处理这么大规模的数据,这已经成为语言模型发展的一个瓶颈。   本文对大规模语言模型的难点和实现技术进行了研究,并针对Web1T语料实现了一套训练和使用工具。由于Web1T数据做了低频词过滤,本文还对其进行平滑时遇到的问题进行讨论,实现了适合大规模数据傻瓜平滑算法。   具体来说,本文的工作主要包含以下内容:   1、研究并比较了基于n元语法语言模型的平滑算法   基于n元语法的语言模型具有模型简单、效果良好的特点,是目前主流的语言模型建模方法。然而极大似然估计会对n元组的概率给出零值,所以需要对极大似然估计方法给出的结果进行平滑,修正错误的零值概率。本文研究了主流平滑算法,如Good-Turing平滑、Witten-Bell平滑和Kneser-Ney平滑等,并比较了各种平滑算法在实际语料上的效果。   2、实现了针对Web1T语料的平滑算法   Google发布的Web1T词频语料只包含n元组频次信息,并且做了低频词过滤,这使得现有的平滑算法公式中的参数无法求得。为了解决这个问题,本文利用zipf定律估计被过滤掉的不同元组的数目,研究和实现了适合大规模数据处理的傻瓜回退(Stupid Smoothing)平滑算法,并比较了傻瓜回退平滑算法和传统平滑算法的效果。   3、Google Web1T语料的训练和使用   处理大规模文本需要资源过大是大规模语言模型需要解决的问题和难点。本文对大规模语言模型实现的难点进行了分析,考察了关键的实现技术,并讨论了各种技术方案的优缺点。针对语言模型训练时所需内存过大问题,本文采用分布式训练和索引技术使所需内存降到可以接受的程度。针对语言模型使用时所需内存过大问题,本文使用对测试集的过滤的方法去除无用数据,设计高效的TRIE树存储数据,并使用内存映射技术降低内存使用量。基于对大规模语言模型实现技术的研究,本文还实现了一个面向Web1T语料的训练和使用工具包,支持训练和使用Web1T语言模型。
其他文献
基于CT图像的三维重建已成为目前国内外研究的热点,它利用在无损状态下获得的二维灰度图像,重建出符合人们视觉习惯的立体图像。内部裂纹缺陷具有不连续、不规则的特点,以前
20世纪90年代以来,随着“普适计算”计算模式的出现,无线通信、嵌入式计算、传感器及微机电系统(MEMS)等技术的快速发展,具有感知能力、计算能力和无线网络通信能力的微型传感器
资产定价是金融市场发展与完善的一个核心问题,也一直是金融领域的一个基础性研究问题。但目前对影响收益率因素的选取及构造研究普遍存在因素选取任意;没有考虑因素之间相关关
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决
在过去的几十年间,处理器主频与内存访问速度间的差距的日益增大,使得许多程序的性能瓶颈集中在内存访问,体系结构中引入了多级高速缓存的结构(cache)来解决内存访问的瓶颈,程序
工作流技术对于推动企业技术进步和信息产业的发展起到举足轻重的作用,但是由于传统工作流管理系统普遍存在耦合程度高、灵活性低和缺乏智能性的缺点,己不能满足现代应用的需
如今,推荐系统已成为一种与计算机学科和数据挖掘联系紧密的热门技术,在互联网行业中有着重要的地位。推荐系统可以挖掘用户偏好并向用户推荐商品,提高用户满意度和商家的收益。
目前,提出高等职业专业课程设计应以满足产业界的要求为宗旨,即以就业为导向,以新的职业能力内涵为目标构建系统化的课程——即就业导向的职业能力系统化课程开发以成为一个新的
XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的标准,受到越来越多的关注。各行各业都采用XML来描述本领域的信息。随着XML应用的不断扩展,XML数据量日益膨
经典的事务特性是保障并发过程正确性和可靠性的抽象准则,就是所谓的原子性、一致性、隔离性和持久性(ACID)。在基于Internet的分布式应用中,许多应用问题的理想化处理都可归结