云存储环境下副本放置与调整策略研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:feihuiy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,企业数据量的快速增长,全球数据量向PB发展,传统的文件系统已不适应这种大数据量的管理。在这种背景下,并随着分布式系统、网格计算等技术的发展云存储系统逐渐成型、完善,并以其高扩展性、高容错性和巨大的存储处理能力得到迅速的发展和应用。   云存储系统中广泛采用了多数据副本放置策略,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,本研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(Cpu信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望的情况下数据复制的份数和位置。本研究提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态优化的数据复制,能获得较高的存储性价比。在三个模拟实验中,基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,42.18%,但文件的平均可用性可达到88.69%,90.54%,88.21%。实验结果表明:本研究提出的基于模糊预测的复制模型实现了在节省了存储空间的同时保证了文件可用性。   虽然数据副本放置问题得到了解决,但云存储系统是一个动态的系统,用户对数据的访问具有突发性、随机性或规律性的高集中性,这些对访问延迟、访问代价、负载均衡等都有较大的影响,为了保证较好的用户体验和数据可用性,本研究在前面模型的基础上又提出了一种基于遗传算法的动态副本调整策略。当新增用户数量或负载达到一定程度时,该策略就会被触发,进而增加副本的个数、并搜索新增副本数据块的最优放置位置,以保证用户对数据的访问代价最优。该策略首先配置一次增加副本的个数,然后采用遗传算法搜索解空间,在结束条件达到时停止搜索,并将适应值最大的那条“基因链”返回给系统,系统按照该基因链中对应的位置,放置文件的数据块到相应的数据服务器节点。本研究在增加请求用户和云存储系统节点数量的情况下,对比了基于遗传算法的副本调整策略和随机放置(hadoop)策略用户访问数据的平均代价,相比随机放置策略而言,基于遗传算法的放置策略使文件的访问代价分别降低了38.7277%,36.0994%。实验结果表明:本研究的策略明显降低了访问代价。
其他文献
随着计算机和互联网技术的迅速普及应用,绝大多数的学术论文以电子文档的形式进行使用和传播。用户对学术论文的检索和获取也越来越多地依赖于网络上的学术搜索引擎、全文数据
近年来,随着扫描重建和建模技术的发展,三维模型的复杂度迅速提升,在表示物体上具备越来越多的细节。人们需要高效的压缩算法来处理这些高精度的三维模型,以满足图形应用程序紧凑
云计算是一种通过网络以便利的、按需付费的方式获取计算资源的范型,这些资源来自一个共享的、可配置的资源池,并能够以最省力的、无人干预的方式获取和释放;它们通常是基于虚
社会网络可视化技术属于信息可视化技术中复杂网络可视化的范畴,社会网络的结构非常复杂,如果只用数据表格或文字的形式来表示网络,不但难以理解,而且网络所包含的信息难以体现。
2005年IETF(Internet Engineering Task Force,因特网工程任务组)提出的NBS(NetworkMobility Basic Support,网络移动性基本支持)协议扩展了MIPv6(Mobile IPv6,移动IPv6),提供一种当
随着机动车使用数量的日益增多,公安部门从监控图像查找犯罪车辆的难度也日益增加,如何快速、实时地从海量视频数据查找犯罪车辆问题成为摆在公安部门面前的核心问题。基于多核
云计算是一种将大规模的IT资源通过互联网按需快速地交付给用户的服务模式。通常基础设施(IaaS)云服务将云计算中心的物理资源转化为由虚拟机组成的资源池,实施资源池化管理。
随着时间的推移,客观物质在不断变化,不断有信息数据发生变化并有新的信息数据产生,如何有效处理这些历史数据,当前数据,和未来数据,这使得时态数据库应运而生。由于时态数据需要海
当前网络安全问题已经从传统的互联网范围延伸到了工业控制领域。随着工业4.0进程的不断推进,工业控制网络这种最初被设计成相对封闭环境的网络结构与互联网的连接愈加紧密。
更快速的处理海量数据,是数据中心计算领域永恒的追求。随着数据量的爆炸式的增长,以及应用领域对于数据处理时效性的要求越来越高,数据处理的压力越来越大。人们不得不着手