一个基于键值的分布式存储系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:gaibian000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展和互联网的普及,应用程序的数据存储规模和数据的访问量越来越大,对数据存储系统的可用性要求越来越高,而访问延时要求越来越短。这些数据大多是非关系型的,而且没有固定的格式。严格遵守数据的原子性、一致性、隔离性、持久性的关系数据库系统的扩展性、可用性和性能都比较差,无法满足海量非关系型数据的高并发、低延迟的存储和访问。新的时期需要能够容纳海量的非关系型数据的分布式数据存储解决方案。  本文以非关系型的分布式数据存储系统作为研究对象,研究了分布式数据存储的相关理论和基于LSM Tree的存储引擎原理,分析了典型的分布式数据存储系统的设计原理和关键技术,结合应用场景分析并制定了系统的分布式存储策略,设计了一个基于键值的分布式存储系统。该系统利用函数式编程语言Erlang的并发特性及其OTP平台的分布式编程库进行实现,开发高效且运行稳定。本文重点解决了以下几个问题:  第一,采用两次映射的改进一致性哈希算法进行数据的分布,解决数据的高并发和扩展性问题,具有无异构性问题、元信息数据量小、简单高效的特点。  第二,采用以数据分片为单位的基于主从的数据复制方案,解决数据的高可用和高可靠问题,具有数据同步快、一致性高、数据副本灵活可控的特点。  第三,采用中心化的有主控服务器的架构设计,解决分布式集群的管理问题,具有系统设计模型简单、支持大规模集群的特点。  第四,采用数据分片副本相对于数据节点无关的分配策略和副本之间独立选举的方式,解决数据的高可用和容错问题,具有数据节点故障无单点负载过高的特点。  第五,采用以数据分片为单位进行数据拷贝的数据迁移方案,解决数据的扩展性和负载均衡问题,具有负载均衡和扩容平滑且速度快的特点。  本文设计的分布式键值存储系统构建在大规模廉价的PC服务器集群之上,能够用来存储大规模的小键值数据对,具有高并发、低延迟、高可用、高可靠、线性扩展等特点,并且能够自动的容灾、负载均衡和扩容。
其他文献
近年来我国航天事业迅猛发展,对通用星载图像处理系统的需求日益强烈。星上成像设备无论在数量还是在精度上都大大增加,这对星载图像处理系统的实时图像处理能力提出了更高的要
网络容错服务器系统对传统的双机系统进行了改进,通过在硬件上增加一个三模冗余的仲裁板,克服了传统的双机系统存在的单点故障的缺点,同时,仲裁板通过和计算机交换信息,把自
商业ERP系统,是适用于各类大型商业批发、零售单位的一套企业管理系统通用软件包.它涉及企业人、财、物、供、销、预测、决策等诸方面的管理工作,包括主计划、采购、库存、销
随着计算机科学和网络技术的发展,以Internet为基础的网络服务不断涌现,传统图书馆因其服务方式已经不能满足用户日益增长的需求,向着数字图书馆转变.但近年来数字图书馆的建
化学工业作为高安全隐患行业,危险事故时有发生,给生产带来巨大损失。行之有效的过程监控和故障诊断方法是预防事故发生、保证系统安全可靠运行的有效手段。针对目前故障检测与
该文针对神经网络这一国际前沿课题,通过对一般的SOFM网络算法加以改进,结合油气检测问题,实现了改进的SOFM网络油气预测的具体算法.论文首先介绍了神经网络的基本理论;其次,
近年来,数据挖掘技术的日渐成熟,为电力行业的发展开拓了新的途径。目前,这方面的研究成果主要集中在从历史数据中挖掘有用的信息,以及根据天气和以往的负荷数据,对短期内的未知负
最近两三年,P2P(Peerto Peer)又成为因特网上的一个热点.相比当前因特网上主流应用模式Client/Server或者Client/Service而言,P2P具有自己鲜明的特点和优势.在P2P网络中,任何
该文主要从以下三个方面入手研究企业知识集成系统:(1)本体论表示、建立方法、评估方法.尽管普遍认为本体论对知识共享和重用的实现具有重要的作用,但在本体论的研究中仍然存
心理健康是人类健康的重要组成部分,实施心理健康援助有利于维护人类的心理健康水平。在开展心理健康援助时,能否实现心理健康问题的早期识别与干预是决定心理健康援助效果的关