论文部分内容阅读
随着信息技术的发展,企业数据量的快速增长,全球数据量向PB发展,传统的文件系统已不适应这种大数据量的管理。在这种背景下,并随着分布式系统、网格计算等技术的发展云存储系统逐渐成型、完善,并以其高扩展性、高容错性和巨大的存储处理能力得到迅速的发展和应用。
云存储系统中广泛采用了多数据副本放置策略,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,本研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(Cpu信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望的情况下数据复制的份数和位置。本研究提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态优化的数据复制,能获得较高的存储性价比。在三个模拟实验中,基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,42.18%,但文件的平均可用性可达到88.69%,90.54%,88.21%。实验结果表明:本研究提出的基于模糊预测的复制模型实现了在节省了存储空间的同时保证了文件可用性。
虽然数据副本放置问题得到了解决,但云存储系统是一个动态的系统,用户对数据的访问具有突发性、随机性或规律性的高集中性,这些对访问延迟、访问代价、负载均衡等都有较大的影响,为了保证较好的用户体验和数据可用性,本研究在前面模型的基础上又提出了一种基于遗传算法的动态副本调整策略。当新增用户数量或负载达到一定程度时,该策略就会被触发,进而增加副本的个数、并搜索新增副本数据块的最优放置位置,以保证用户对数据的访问代价最优。该策略首先配置一次增加副本的个数,然后采用遗传算法搜索解空间,在结束条件达到时停止搜索,并将适应值最大的那条“基因链”返回给系统,系统按照该基因链中对应的位置,放置文件的数据块到相应的数据服务器节点。本研究在增加请求用户和云存储系统节点数量的情况下,对比了基于遗传算法的副本调整策略和随机放置(hadoop)策略用户访问数据的平均代价,相比随机放置策略而言,基于遗传算法的放置策略使文件的访问代价分别降低了38.7277%,36.0994%。实验结果表明:本研究的策略明显降低了访问代价。