大规模数据存储与处理的关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：21stsun

【摘要】

：

近年来，信息发布的方式越来越多样和便捷，无线传感器、移动设备等越来越普及，云计算、物联网等技术也得到了迅猛的发展，使得数据规模急剧增大，数据类型也多种多样。针对海量、异构

【作者】

：

王耀光

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2015年期

【关键词】

：

大规模数据存储管理键值数据库悲观封锁协议

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，信息发布的方式越来越多样和便捷，无线传感器、移动设备等越来越普及，云计算、物联网等技术也得到了迅猛的发展，使得数据规模急剧增大，数据类型也多种多样。针对海量、异构的数据资源，如何实现统一的数据表达、可扩展的存储管理以及高效的分析处理，是非常重要且具有挑战性的问题。目前针对大规模数据的存储主要有分布式文件系统和新型的NoSQL存储，两者在通用性和专一性上各有所长，但在数据类型支持、事务管理方面略有不足。对于大规模数据处理来说，尽管业界基本形成了事实上的大数据处理标准-MapReduce，但是偏斜问题的存在严重影响了并行处理的效率。因此，本文针对大规模数据存储和处理进行研究。　　本文主要进行了如下创新性工作:　　本文对海量、异构的数据资源进行了统一的表达，并整合了不同的存储系统提供混合存储管理。针对不同类型的数据，单一存储引擎不能有效管理，本文通过评估不同存储系统的数据访问性能差异，验证了混合存储的可能，同时探讨了不同的实现方式。在非结构化数据管理系统D-Ocean中实现了可扩展的数据类型和有效的混合存储管理。　　针对目前新型NoSQL存储仅提供单行事务管理的不足，本文提出了一种利用键值数据库实现多行事务的处理系统-TrasPS。TrasPS采用悲观封锁协议，实现数据在并发访问中的隔离，同时改进了两阶段提交协议，提高了事务处理的吞吐量。在一般的恢复处理基础上，本文还提出了一种高可用方案HAaaS来解决单点故障问题。　　在对大规模数据进行并行处理中，本文结合不同应用的特点，通过平衡的数据划分方法来解决数据偏斜问题。对于非结构化数据分析来说，在D-Ocean混合存储管理的基础上，结合不同存储系统的特性，提出了多种数据划分方法，从而实现负载均衡。对于高维向量相似度检索来说，通过解决平衡的有向非对称图的路由算法，实现每个处理单元的负载均衡。　　大规模数据处理的事实标准-MapReduce，采用了推测执行的方式，来消除由于节点差异等原因造成的“拖后腿”的任务。然而，在异构环境中，这些被推测调度的备份任务并没有实现“战胜”原始任务的预期。本文提出了“部分”推测执行机制:当任务调度器准备调度一个备份任务时，在原始任务执行端进行简单、快速的检查点操作，而在备份任务启动时，通过分布式协调服务获取检查点数据，恢复任务状态，从而跳过对部分输入数据的重复操作，加快备份任务的执行过程。通过这种仅处理“部分”输入数据的方式，能够避免重复读取、重复拷贝和重复计算的开销，从而消除任务偏斜，加快作业的执行。

其他文献

行为模式挖掘

用户规模万级以上的网络信息系统数量呈指数级增长态势，是当前互联网发展的一个基本事实。用户使用系统的行为往往受到网络中其他个体以及群体使用方式的影响。因此，如何在网络

学位

网络信息

嵌入式系统中基于电池抽象模型的动态电压调节策略研究

随着移动计算技术的发展，功耗问题已经成为制约嵌入式系统发展的重要因素之一。动态电压调节(DVS)技术是一种通过在线调节系统工作电压／频率的低功耗技术，在保证系统性能的同时

学位

嵌入式系统电池模型动态电压调节系统能量消耗电池放电

基于GPRS嵌入式自动抄表系统的研究与实现

与传统的人工抄表系统相比，自动抄表(Automatic Meter Reading)系统具有高效、便捷、准确等优点，已广泛应用于水、电、气等公共服务事业中。针对AMR系统在无线通讯、数据安全和

学位

自动抄表系统GPRS嵌入式linux实时系统无线网络无线传输数据安全系统设计

概念和上下位关系的获取理论和方法研究

随着计算机的普及以及互联网的迅猛发展,知识获取的来源、数量和形式也随之发生了根本的变化.目前,在Internet的数据中蕴含了海量的知识,同时也含有大量的垃圾信息,完全人工

学位

知识获取概念获取意义识别信息抽取

移动平台上的游戏开发技术研究

伴随着移动网络和移动终端性能的不断提高与完善，手机游戏增长势头远远超过其他移动数据业务，已经逐渐成为一个生机勃勃而又潜力巨大的文化产业。现阶段的手机游戏发展滞后于手

学位

移动网络手机游戏游戏开发

跨媒体表达与排序联合优化理论与方法研究

随着互联网上多媒体数据的日益增长，通过一种模态数据检索另外一种模态数据（例如，以文本检索图像）的跨媒体检索具有广泛的应用并日益受到关注。跨媒体排序是跨媒体检索中的一个重

学位

数据检索跨媒体表达跨媒体排序联合优化算法

基于服务Agent的语义Web服务发现、集成方法的研究

伴随着网络技术的飞速发展,Web服务的应用范围在不断地扩大。越来越多的Web服务被作为共享服务提供给请求者使用,而Web服务种类的多样化也造成了在其之上的发现和集成效率的

学位

服务Agent服务Agent语义Web语义WebWeb服务发现Web服务发现系统集成系统集成功能结构功能结构

基于主题匹配与信息融合的交互式视频检索框架

随着多媒体技术和互联网技术的飞速发展，以视频为代表的多媒体数据正在以惊人的速度增长。面对如此丰富、无序、海量的多媒体数据，如何实现所需资源的有效组织、高效检索和快速

学位

视频特征信息融合主题匹配多媒体数据视频检索分支反馈算法主题直方图

基于样本的图像纹理合成技术研究

在计算机图形学中,常需要给几何模型增加丰富而真实的细节,纹理被普遍认为是最有效的手段。纹理合成可以生成任意大的所需要的纹理,解决了纹理映射中的接缝和扭曲问题。但传

学位

图像纹理图像纹理计算机图形学计算机图形学几何模型几何模型纹理映射纹理映射纹理合成纹理合成实时模式匹配实时模式匹配合成算法合成算法

基于能力的歌曲推荐技术的研究

唱歌是一种广受欢迎的娱乐活动，同时也是表达情感的一种很好的方式。传统的卡拉ok已经备受人们的喜爱，朋友们聚在一起去KTV唱歌已经成为广大唱歌爱好者的一种日常娱乐活动。唱

学位

推荐系统发声能力演唱歌曲推荐排序学习概率推断

大规模数据存储与处理的关键技术研究

其他学术论文