论文部分内容阅读
云存储将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问,能够有效缓解当前大数据对存储资源需求扩张的问题。然而,随着信息系统对数据访问的要求急剧扩展以及应用环境的日益复杂,对系统的存储效率和可靠性提出了更高的要求。本文针对云存储下的数据副本关键技术进行了研究,分别提出了副本放置、冗余副本移除和多副本数据可靠性三种算法,用于均衡系统的负载、提高系统的存储利用率和保证数据的可靠性。本文的主要工作包括以下三个方面:第一,云存储环境下副本放置问题研究。针对高负载云存储环境下过载节点增长过快,可能导致的过载聚集效应问题,提出了一种用于判定副本创建时机和位置的分散自适应副本放置算法。该算法根据节点的过热相似度,利用弹性阈值获取副本创建的最佳时机,降低了节点过载概率;同时,它兼顾存储节点的过热相似度以及节点所处的位置,采用分散自适应的方式选择最佳副本放置节点,降低过载聚集效应产生的概率。大量实验表明,与同类方法相比,该算法下的节点平均负载降低了10%,数据平均访问延迟也可以降低15%~20%。第二,云存储环境下副本移除问题的研究。针对云存储环境下副本状态动态变化且受到多因素的制约,减小因副本移除对系统造成的负面影响,提出了一种基于预测评估机制的冗余副本移除算法。该算法综合考虑存储节点的负载、数据访问量以及数据存储的节点位置,采用模糊聚类分析法从副本集合中选择出对删除影响最小的副本作为候选删除副本;然后根据该副本的历史访问信息和存储节点的服务能力对候选删除副本进行预测和评估,以确定是否移除副本,降低因副本移除导致其他节点过载的概率。与同类方法相比,该算法的存储利用率提高了近40%,数据的平均访问延迟降低了 5%~15%。第三、数据可靠性与副本放置、副本移除关系的研究。针对于可靠性与副本放置与移除之间的平衡问题,提出了一种多副本可靠性策略。该策略根据数据的可靠性存储期望值,利用“多次副本放置”和“选择性移除冗余副本”实现在保证数据可靠性期望的前提下,利用较少数量的副本提高数据访问效率的目的。它将多副本和可靠性之间的关系分成创建满足数据可靠性期望的副本、创建适应动态云储存访问需要的副本、创建保证数据可靠性的副本以及移除副本四个阶段。当文件保存到云存储中时,该策略根据数据的存储期望值,采用集中式方式创建满足存储期望的最少副本,并以全局信息为指导对副本进行放置。为应对动态云存储环境的需要,采用分散自适应的方式动态的创建和放置副本。为保证数据的存储期望,该策略采用周期性检测的方式探测数据的可靠性,当数据的存储期望得不到满足时再次创建和放置副本。在移除冗余副本时,该策略首先由节点采用分散自适应的方式向系统提出移除申请,数据中心根据数据的存储期望采用集中式方式对移除申请进行评估和移除副本。与其他同类算法相比,该策略的节点平均负载降低了约10%,存储利用率最大可以提高50%;同时,相较于数据的原始存储期望,数据的可靠度可以提高8%。