论文部分内容阅读
随着云存储规模的不断增大,云存储系统面临数据丢失的风险也不断提升,因此云存储系统中数据可靠性问题是当前学术界和工业界关注的一大热点。为了解决该问题,云存储系统通常使用具有低存储成本的纠删码技术。区别于一般存储系统,云存储系统需要满足海量用户复杂多变的存储需求,以及提供7×24高可用的存储服务,而这给云存储系统中纠删码技术带来两大关键性科学问题,分别是纠删码的存储扩展性能较低与频繁变化的存储扩展需求之间的矛盾,以及纠删码的数据修复性能较低与云存储服务高可用性之间的矛盾。因此,针对基于纠删码的云存储系统,围绕存储扩展和数据修复的性能开展了如下四方面的研究:
基于纠删码的存储扩展一般会改变编码参数而产生大量的校验块更新,从而造成巨大的带宽开销,进而影响到云存储系统提供服务的能力。针对这一问题,对广泛使用的ReedSolomon(RS)码存储扩展问题进行了深入研究。在理论上,通过信息流图模型证明基于RS码的存储扩展所消耗带宽(记为“扩展传输量”)的理论下界,并提出一种可达到下界的最优扩展传输量的理论编码构造;在系统上,根据理论结果,设计了基于网络编码的快速存储扩展算法,可达到最优或接近最优的扩展传输量。实现一个基于网络编码的快速扩展算法的分布式存储原型系统NCScale。经Amazon云平台EC2上的实验证明,NCScale的扩展时间相对于当前的最优方案Scale-RS最多可减少50%。
由于云存储系统高可用的存储需求,一种可大幅减少修复操作带来的带宽消耗进而提升系统可用性的新型编码技术——再生码受到广泛关注。当前对于再生码的研究主要集中在数据修复问题上,而缺乏对云存储系统极为重要的存储扩展问题的研究。针对这一问题,对再生码的存储扩展问题进行了深入研究。对两类再生码MBR码以及MSR码的扩展问题,分别提出相应的编码扩展方案。这些方案利用MBR码及MSR码的编码结构以及局部更新技术来对扩展过程进行优化,从而大幅减少了扩展过程中的网络开销。在Hadoop分布式文件系统(HDFS)中实现这两种扩展方案,并在Amazon云平台EC2上进行实验。结果表明,相对于当前集中式的扩展方案,扩展传输量分别降低了66.5%和43.5%。
现有的主流基于纠删码的数据修复方案均设计为在静态的网络情况下来进行快速的数据修复,而难以应对云存储中异构且快速动态变化的网络。针对这一问题,对云存储网络带宽异构且快速动态变化情况下的基于纠删码的数据修复问题进行了深入研究,提出一种灵活的基于树的流水线修复方案FTPRepair。FTPRepair利用树状结构来避免拥堵的修复链路,从而在异构的网络中进行快速的修复;且FTPRepair进一步利用软件定义网络技术实现分片级的修复来灵活应对快速动态变化的网络。FTPRepair实现在模拟器Mininet以及真实系统ECPipe中,并在Amazon云平台EC2上进行实验。模拟和实验结果表明,相对于传统修复以及当前最优修复方案Repair-Pipelining,FTPRepair可以明显提升降级读和节点修复的性能。
云存储系统通常使用大规模的磁盘来存储海量的数据,这大幅增加了系统中出现磁盘故障的频率,且这些磁盘故障分布不均匀,从而影响到云存储的高可用性。针对这一问题,将磁盘故障预测的结果与微软Azure云存储中所使用的LRC(locally repairable codes)码相结合进行了深入研究,提出一类预测式的LRC(即ProactiveLRC,记为pLRC)。pLRC利用基于决策树的磁盘故障预测方法来动态调整LRC码各个分组的大小,从而使得即将发生故障的数据块在更小的组内进行更快的修复。通过MTTDL建模分析pLRC的可靠性,结果表明,pLRC的可靠性相对LRC码最多可提升113%。在Hadoop分布式文件系统(HDFS)中实现pLRC,并在Amazon云平台EC2上进行实验。结果表明,pLRC的降级读和磁盘修复性能相对LRC码最多可提高46.8%和47.5%。
基于纠删码的存储扩展一般会改变编码参数而产生大量的校验块更新,从而造成巨大的带宽开销,进而影响到云存储系统提供服务的能力。针对这一问题,对广泛使用的ReedSolomon(RS)码存储扩展问题进行了深入研究。在理论上,通过信息流图模型证明基于RS码的存储扩展所消耗带宽(记为“扩展传输量”)的理论下界,并提出一种可达到下界的最优扩展传输量的理论编码构造;在系统上,根据理论结果,设计了基于网络编码的快速存储扩展算法,可达到最优或接近最优的扩展传输量。实现一个基于网络编码的快速扩展算法的分布式存储原型系统NCScale。经Amazon云平台EC2上的实验证明,NCScale的扩展时间相对于当前的最优方案Scale-RS最多可减少50%。
由于云存储系统高可用的存储需求,一种可大幅减少修复操作带来的带宽消耗进而提升系统可用性的新型编码技术——再生码受到广泛关注。当前对于再生码的研究主要集中在数据修复问题上,而缺乏对云存储系统极为重要的存储扩展问题的研究。针对这一问题,对再生码的存储扩展问题进行了深入研究。对两类再生码MBR码以及MSR码的扩展问题,分别提出相应的编码扩展方案。这些方案利用MBR码及MSR码的编码结构以及局部更新技术来对扩展过程进行优化,从而大幅减少了扩展过程中的网络开销。在Hadoop分布式文件系统(HDFS)中实现这两种扩展方案,并在Amazon云平台EC2上进行实验。结果表明,相对于当前集中式的扩展方案,扩展传输量分别降低了66.5%和43.5%。
现有的主流基于纠删码的数据修复方案均设计为在静态的网络情况下来进行快速的数据修复,而难以应对云存储中异构且快速动态变化的网络。针对这一问题,对云存储网络带宽异构且快速动态变化情况下的基于纠删码的数据修复问题进行了深入研究,提出一种灵活的基于树的流水线修复方案FTPRepair。FTPRepair利用树状结构来避免拥堵的修复链路,从而在异构的网络中进行快速的修复;且FTPRepair进一步利用软件定义网络技术实现分片级的修复来灵活应对快速动态变化的网络。FTPRepair实现在模拟器Mininet以及真实系统ECPipe中,并在Amazon云平台EC2上进行实验。模拟和实验结果表明,相对于传统修复以及当前最优修复方案Repair-Pipelining,FTPRepair可以明显提升降级读和节点修复的性能。
云存储系统通常使用大规模的磁盘来存储海量的数据,这大幅增加了系统中出现磁盘故障的频率,且这些磁盘故障分布不均匀,从而影响到云存储的高可用性。针对这一问题,将磁盘故障预测的结果与微软Azure云存储中所使用的LRC(locally repairable codes)码相结合进行了深入研究,提出一类预测式的LRC(即ProactiveLRC,记为pLRC)。pLRC利用基于决策树的磁盘故障预测方法来动态调整LRC码各个分组的大小,从而使得即将发生故障的数据块在更小的组内进行更快的修复。通过MTTDL建模分析pLRC的可靠性,结果表明,pLRC的可靠性相对LRC码最多可提升113%。在Hadoop分布式文件系统(HDFS)中实现pLRC,并在Amazon云平台EC2上进行实验。结果表明,pLRC的降级读和磁盘修复性能相对LRC码最多可提高46.8%和47.5%。