基于纠删码的分布式文件系统恢复过程研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yhmlivefor49
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纠删码在大规模的分布式存储系统中得到了越来越广泛的使用。但受限于恢复过程会涉及到多个块的磁盘读取和网络传输,纠删码的恢复开销很高。这给分布式存储系统带来两个问题:a)高退化读延时;b)高节点失效恢复成本。为了提高纠删码存储系统的服务性能及数据可用性,本文对纠删码的恢复过程进行了深入的研究,针对这两个问题,分别提出了相应的优化方案。  本文的主要工作和创新点为:  1.针对高退化读延时,提出了基于数据热度的多级分组编码方法。传统的纠删码的存储系统中只采用一种编码方式,只能针对存储开销或恢复开销做优化。在分布式存储系统中存在数据访问的局部性原理:大部分的文件很少被访问到,少部分的文件集中了绝大多数的数据访问。基于这个原理,本文提出了一种对热数据使用恢复开销低的小分组编码进行编码,对冷数据使用存储开销低的大分组编码进行编码的多级分组编码方案。这可使系统在恢复开销和存储开销方面都取得不错的效果。同时,当数据的冷热程度出现变化时,能够自动地适应这种负载变化,把文件在不同的分组编码状态间进行转换。  2.设计并实现了节点失效恢复的并行流水线化。传统的纠删码恢复流程中,各部分操作串行执行的。在分布式存储系统中,基于数据可靠性的考虑,同一条带内的块都是分散存储在集群的不同节点上面,对于恢复所需的多个块可以进行并行的磁盘读取和网络传输。同时通过对块进行分片操作及基于增量编码原理,可以使纠删码恢复过程中的磁盘读取、网络传输及解码计算流水线化地进行,进一步降低恢复时间。  本文基于分布式文件系统ECFS实现了多级分组编码方案和节点失效恢复功能,并对退化读和节点失效恢复效果进行了评测。评测结果显示,结合了LRC(12,2,2)和LRC(12,6,2)的多级分组编码的退化读延时与RS(6,3)相比降低了20.3%,和RS(10,4)相比降低了41.7%。对节点失效恢复进行并行流水线化处理之后能将整体恢复时间降低26%。
其他文献
管理信息系统是一个以计算机为工具,具有数据处理、预测、控制和辅助决策功能的信息系统。生产管理信息系统是管理信息系统的一部分,管理信息系统的开发过程,就是从问题提出、开
计算机层析成像(CT)被广泛的应用于疾病的诊断,成为医生进行病理和解剖研究的重要手段之一。如何利用CT断层数据进行三维重建,以提高医生的诊断效率,乃至直接为外科手术临床服务
随着计算机网络的应用深入到社会生活的各个领域,信息系统安全问题受到广泛关注。网络安全传统上一直倾向采取被动式防护策略,如数据加密技术、防火墙技术、访问控制技术、数
学位
随着技术的发展,在航天领域,软件在型号系统中得到了广泛的应用。软件失效会直接导致严重的事故甚至灾难。为提高软件的可靠性,对于软件测试而言,需尽可能多的发现软件中可能
呼叫中心(Call Center)作为一种利用现代通信手段和计算机技术来处理话务量的全新现代化服务方式,越来越被众多的企业重视。它的发展主要经历有三个阶段,从最初的人工热线系
初式是各大经典三角化零点分解算法中使用最为频繁的一个概念,是多个分解方案的基础出发点和主要工具,但是它缺少以分析的观点来看待零点分解问题。本文的主要内容是根据李永彬
粒子群优化(PSO)算法是由Kennedy和Eberhart于1995年提出的一种群智能优化算法。这种智能算法与遗传算法(Genetic Algorithm)类似,都是基于种群的随机算法,但他们的遗传机制不
互联网面临着扩展性、安全性与移动性等一系列严重的问题与挑战。为了解决这些问题,业界从未来网络体系结构、软件定义网络、网络功能虚拟化等角度展开了大量研究。试验验证是
随着计算机和网络技术的不断发展,文档一体化管理、协同办公等各类工作流信息化系统已广泛应用于各行业领域中。由于在应用信息化系统的过程中涉及到大量的电子文档,而电子文
高斯滤波,即window操作,是一种适用于消除高斯噪声的线性平滑滤波,广泛应用于科学数据处理的减噪过程。在科学数据处理领域当中,需要通过过滤噪声来提取最有用的信息,所以滤波操作