适用于自然语言处理应用的分布式大数据计算系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用离线大数据统计分析的方法进行自然语言处理任务的研究是目前非常有潜力的一种研究范式,尤其是Google,Twitter等大公司在这类应用上的成功经验,引领了目前大数据研究的浪潮。为进行离线大数据存储与计算,Google提出了一套计算框架,包括分布式存储GFS,计算调度系统Omega,MapReduce计算模型,Pregel计算模型等。这些模型利用成千上万的普通服务器集群搭建起强大的数据处理系统,每天离线的统计分析全球的网页数据与用户行为。  在当前的主流研究环境中,大多数实验室仅仅拥有一个中小规模的服务器集群,系统故障率远远低于超大规模集群,对可扩展性以及可靠性的要求较低,系统的焦点在于充分利用系统的性能进行更大规模的数据分析。本文针对自然语言处理研究的任务环境,以提高系统性能为目标,搭建了一个高性能离线大数据计算系统。  本文首先以提高单节点的处理性能出发,通过分析自然语言处理任务对于IO以及CPU的使用情况,以及原有模型的缺陷,提出了基于非对称多线程的FIOS模型,有效提高了IO密集型任务的IO使用率以及CPU使用率,在实验中,FIOS模型针对CPU密集型任务和IO密集型任务都显示出了良好的性能。  本文接着将FIOS模型作为处理核心,在FIOS模型的基础上,利用高并发服务器搭建起分布式通信基础,构建了一套分布式模型基础架构CCMI,利用CCMI可以搭建各种类型的分布式计算模型。本文以工作流和BSP图计算模型为例,说明了如何利用CCMI接口搭建起分布式计算模型。在实验中,以CCMI为基础的工作流模型和BSP图计算模型都显示出了良好的性能。在以Pagerank为例的实验中,BSP图计算模型达到了同类模型利用超大规模集群达到的计算速度。  通过本文的模型以及实验说明了在自然语言处理的研究中,利用中小集群进行超大规模数据统计分析的研究是可行的。  
其他文献
随着Internet网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题.IP协议是无连接协议,不能保证足够的吞吐量和符合要求的传送时延,只
本文根据计算机在工业控制领域的技术发展趋势,结合计算机软件设计的理念,以及单片机技术的发展,提出了基于计算机底层语言的疲劳驾驶预警装置的软件开发和硬件设计.设计中,
支持向量机是近些年发展起来的一种新的机器学习的方法。它以统计学习理论为基础,能够较好的解决小样本的学习问题。由于其出色的学习和推广性能,支持向量机已经被应用到许多方
网络技术的迅速发展,给人们的工作、生活带来便利,但网络攻击事件频繁发生、网络病毒肆意泛滥,各种不安全的因素所带来负面影响日益强烈.电子邮件服务作为网络应用最广、最早
软硬件协同设计是嵌入式系统设计的一种方法,形式化分析和验证方法作为软硬件协同设计方法的重要部分得到了广泛的研究和应用.作为IEEE标准,Verilog HDL硬件描述语言被广泛应
随着能源日益紧缺,节能已成为国家和企业的迫切要求。建筑能耗作为“三大能耗”之一,即是能耗的重要部分,也是污染的主要来源。建筑能源管控系统对整个建筑的所有公用机电设备,包
数字信息资源的加工和整理是数字图书馆建设的一个重要方面,为了使大量的文本型文献以一个更加有效的方式组织和利用,自动标引的概念被提出.自动标引技术可以自动提取表示文
随着智能卡应用的不断推广,不同行业、不同领域对智能卡的需求都日益增加,仅仅适用于某一种应用的单应用卡已不再能够满足实际应用的需求.这是因为,为了实现多种应用用户不得
论文主要对协作型防火墙的包过滤和通信安全进行设计与实现.包过滤是防火墙的基本功能,通信安全是防火墙进行网络安全保护的前提条件.论文通过下面的方法,设计与实现协作型防
随着中国加入WTO和2008年奥运会的临近,我国政府的职能需要由管理型向服务型过渡,电子政务成为中国政务改革最核心的内容之一。综合资源信息服务平台作为政府部门面向公众提供