论文部分内容阅读
随着大数据时代的到来,以及近年来移动互联网技术的快速普及,互联网上产生的小文件数量呈爆发式增长,因此企业对海量小文件存储的需求也日趋迫切,但目前主流的分布式存储系统并不能满足海量小文件的存储需求。新一代分布式存储系统Ceph是进行海量小文件存储的最佳选择,它被设计成一款没有单点故障,具有高可靠性、高性能、高扩展性的系统,同时支持对象存储、文件存储、块存储等多种存储方式。Ceph能够满足海量小文件的存储需求,但其小文件存储性能却不能令人满意。因此,研究Ceph系统的小文件性能优化策略具有十分重要的研究价值和现实意义。本文分析了现有解决海量小文件存储性能问题的优化方案,特别是小文件合并方案。但是目前的小文件合并方案由于索引结构的设计缺陷,带来了小文件检索效率低、实用性差等问题。因此,本文在前人的小文件合并方案的基础上,设计了一种新的小文件合并方案,并结合缓存管理技术,实现了一套基于Ceph的小文件性能优化系统。本文主要工作归纳如下:1、研究了实际应用中海量小文件问题产生的背景以及现有解决方案。深入分析了分布式存储系统Ceph的基本架构和各个模块的主要功能。通过研究Ceph系统的读写流程,分析Ceph系统在海量小文件存储上存在的性能问题,从而提出了一套适合Ceph系统的小文件性能优化策略。2、根据海量小文件存储的特点,设计了一种小文件合并算法,该算法将小文件按照其大小和类型进行分类,再将同类型小文件合并成大文件,有效地减少了文件的数量。同时,在客户端设计了一种缓存管理算法,该算法通过文件被访问的时间间隔和访问频率来管理缓存空间,有效地提高了客户端缓存区的文件命中率。3、通过本文设计的合并算法和缓存管理算法,设计并实现了一套基于Ceph的小文件性能优化系统。本文详细论述了该系统的整体架构,分析了各个模块的设计原理以及实现过程。最后在存储实验室搭建系统的测试环境,对优化前后的系统进行读写性能对比测试,实验结果表明优化后的Ceph系统在小文件读写性能上取得了明显的提升。