论文部分内容阅读
云计算是一种具有高适应性的分布式计算。它的主要目的是将海量数据的计算任务拆分成多个规模较小的子任务,通过深度定制的网络控制,将子任务交付于服务器集群进行实际运算,最终通过网络传输将计算结果返回给用户。云计算在发展中融合了虚拟化、负载均衡、网络存储、软件定义网络等技术,从而能够将用户对海量数据的计算和处理高效交付至大规模数据中心,实现了软硬件资源的高效整合和集中管理。云存储是伴随着云计算概念的发展而产生的。它需要支撑起云计算庞大的数据存储总量,并提供高可靠性高可用性的存储服务。Hadoop是一个由Apache基金组支持与维护的开源云计算项目。在众多的云计算框架中,由于Hadoop在不断发展下所展示的高扩展性、高可靠性和高可用性,逐渐成为了一种重要而突出的云计算框架。Hadoop的底层分布式文件系统(HDFS,Hadoop Distributed File System)则因Hadoop取得的成功,成为了云存储研究中的一个显著热点。本文针对于HDFS中的冗余数据存储方案,分析了其数据流中存在的两个主要问题:数据倾斜和随机访问。数据倾斜会使得静态数据冗余方案性能下降并造成存储资源浪费。而随机访问的发生则会显著地影响数据冗余方案的性能。在对这两大问题的深入探究后,本文提出了新的数据存储方案动态冗余异构存储系统(DHS,Dynamic Heterogeneous Storage system)。DHS在设计上,一方面结合了两种不同的主流数据冗余技术,另一方面引入了混合存储架构。本文工作的创新性体现在以下三个方面:首先同现有的存储改进方案不同,DHS根据历史访问记录提出了访问负载的概念并通过统计分析进行预测;其次DHS采用了全新的反馈存储调节机制,适应访问需求制定存储方案;最后DHS详尽考量了普通磁盘上的访问流,制定了混合存储以及竞争缓解机制,提升磁盘组整体性能。DHS能够在保证原始HDFS方案数据的高可靠性的前提下,改善其存储的服务性能,在整体上节约存储开销,从而提供高性价比的数据存储方案。本文将在对HDFS的深入剖析的前提下,分析其数据流中存在问题产生的原因和影响,详尽介绍DHS的设计理念、实现方案和技术细节,并最终通过仿真和真实部署两方面的实验,验证DHS的可靠性以及高效性。