适用于自然语言处理应用的分布式大数据计算系统

来源 :北京大学 | 被引量 : 0次 | 上传用户：biiq123

【摘要】

：

利用离线大数据统计分析的方法进行自然语言处理任务的研究是目前非常有潜力的一种研究范式，尤其是Google，Twitter等大公司在这类应用上的成功经验，引领了目前大数据研究的浪潮

【作者】

：

段荪宇

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2014年期

【关键词】

：

自然语言处理分布式系统大数据处理图计算模型分布式计算模型工作流模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

利用离线大数据统计分析的方法进行自然语言处理任务的研究是目前非常有潜力的一种研究范式，尤其是Google，Twitter等大公司在这类应用上的成功经验，引领了目前大数据研究的浪潮。为进行离线大数据存储与计算，Google提出了一套计算框架，包括分布式存储GFS，计算调度系统Omega，MapReduce计算模型，Pregel计算模型等。这些模型利用成千上万的普通服务器集群搭建起强大的数据处理系统，每天离线的统计分析全球的网页数据与用户行为。　　在当前的主流研究环境中，大多数实验室仅仅拥有一个中小规模的服务器集群，系统故障率远远低于超大规模集群，对可扩展性以及可靠性的要求较低，系统的焦点在于充分利用系统的性能进行更大规模的数据分析。本文针对自然语言处理研究的任务环境，以提高系统性能为目标，搭建了一个高性能离线大数据计算系统。　　本文首先以提高单节点的处理性能出发，通过分析自然语言处理任务对于IO以及CPU的使用情况，以及原有模型的缺陷，提出了基于非对称多线程的FIOS模型，有效提高了IO密集型任务的IO使用率以及CPU使用率，在实验中，FIOS模型针对CPU密集型任务和IO密集型任务都显示出了良好的性能。　　本文接着将FIOS模型作为处理核心，在FIOS模型的基础上，利用高并发服务器搭建起分布式通信基础，构建了一套分布式模型基础架构CCMI，利用CCMI可以搭建各种类型的分布式计算模型。本文以工作流和BSP图计算模型为例，说明了如何利用CCMI接口搭建起分布式计算模型。在实验中，以CCMI为基础的工作流模型和BSP图计算模型都显示出了良好的性能。在以Pagerank为例的实验中，BSP图计算模型达到了同类模型利用超大规模集群达到的计算速度。　　通过本文的模型以及实验说明了在自然语言处理的研究中，利用中小集群进行超大规模数据统计分析的研究是可行的。　　

其他文献

MPLS故障保护系统的研究与仿真实现

随着Internet网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题.IP协议是无连接协议,不能保证足够的吞吐量和符合要求的传送时延,只

学位

MPLS流量工程故障保护NS2仿真CR-LDP网络生存性

疲劳驾驶预警装置的研究与开发

本文根据计算机在工业控制领域的技术发展趋势,结合计算机软件设计的理念,以及单片机技术的发展,提出了基于计算机底层语言的疲劳驾驶预警装置的软件开发和硬件设计.设计中,

学位

疲劳驾驶单片机数据采集预警装置软件开发硬件设计

支持向量机在基于边缘检测的图像分割和函数估计中的应用

支持向量机是近些年发展起来的一种新的机器学习的方法。它以统计学习理论为基础，能够较好的解决小样本的学习问题。由于其出色的学习和推广性能，支持向量机已经被应用到许多方

学位

支持向量机边缘检测图像分割边值问题

基于协议分析的邮件安全审计系统的研究与实现

网络技术的迅速发展,给人们的工作、生活带来便利,但网络攻击事件频繁发生、网络病毒肆意泛滥,各种不安全的因素所带来负面影响日益强烈.电子邮件服务作为网络应用最广、最早

学位

协议分析安全审计邮件安全邮件协议

Verilog HDL的区间时态逻辑描述的研究与实现

软硬件协同设计是嵌入式系统设计的一种方法,形式化分析和验证方法作为软硬件协同设计方法的重要部分得到了广泛的研究和应用.作为IEEE标准,Verilog HDL硬件描述语言被广泛应

学位

嵌入式系统软硬件协同设计区间时态逻辑硬件描述语言

建筑能源管控系统关键模块的设计与实现

随着能源日益紧缺，节能已成为国家和企业的迫切要求。建筑能耗作为“三大能耗”之一，即是能耗的重要部分，也是污染的主要来源。建筑能源管控系统对整个建筑的所有公用机电设备，包

学位

建筑节能建筑能耗能源管控系统中央空调变配电系统决策支持系统

数字图书馆自动标引技术研究与实现

数字信息资源的加工和整理是数字图书馆建设的一个重要方面,为了使大量的文本型文献以一个更加有效的方式组织和利用,自动标引的概念被提出.自动标引技术可以自动提取表示文

学位

自动标引中文分词自然语言处理

一卡多用卡操作系统的研究与实现

随着智能卡应用的不断推广,不同行业、不同领域对智能卡的需求都日益增加,仅仅适用于某一种应用的单应用卡已不再能够满足实际应用的需求.这是因为,为了实现多种应用用户不得

学位

智能卡一卡多用电子商务

协作型防火墙的包过滤和通信安全的设计与实现

论文主要对协作型防火墙的包过滤和通信安全进行设计与实现.包过滤是防火墙的基本功能,通信安全是防火墙进行网络安全保护的前提条件.论文通过下面的方法,设计与实现协作型防

学位

防火墙分布式结构包过滤网络驱动接口规范网际协议安全

电子政务中综合资源信息服务平台的关键技术研究及其实现

随着中国加入WTO和2008年奥运会的临近，我国政府的职能需要由管理型向服务型过渡，电子政务成为中国政务改革最核心的内容之一。综合资源信息服务平台作为政府部门面向公众提供

学位

综合资源信息服务平台模板模块中英文全文信息检索基于角色的访问控制

适用于自然语言处理应用的分布式大数据计算系统

其他学术论文