论文部分内容阅读
由于数据量的迅速膨胀及性能需求的日益提高,缓存在存储系统中的作用变得更加重要,缓存的容量在逐渐变大。然而“大数据”时代不仅仅是数据量的膨胀,数据的访问模式也发生了很大的变化,主要体现为数据访问局部性的弱化,这使得现有的缓存替换算法受到了挑战,因此针对数据中心负载特征如何设计缓存管理策略成为亟待研究的问题。同时,日益成熟的SSD无论是容量还是性能均介于DRAM与磁盘之间,使得其成为一种优秀的候选缓存介质。但是,SSD具有读写性能不均衡及易于磨损等特性,如何更加合理的利用SSD作为缓存介质成为一个值得探究的问题。 本文从数据中心负载的分析入手,深入分析不同访问模式数据所占的比例及其缓存价值,基于负载分析的结论与启示,我们设计了一个通用的缓存替换策略——Rame,同时我们基于Rame针对SSD读写不均衡等特征进行扩展与优化,旨在保证命中率的同时通过减少SSD的写入提高性能并减缓SSD的磨损。 本文的主要研究工作与贡献如下: 1)从不同来源广泛收集了多个数据中心I/O负载进行深入的分析,定义了数据访问模式的类别并将数据按访问模式进行分类,分别对每一类的缓存价值与缓存代价进行了分析。 2)提出了一种新的缓存策略Rame,该策略通过“将数据重加缓存”的方式更加合理的区分与对待不同访问模式的数据,使得缓存价值更大的数据尤其是访问较为均匀的数据在其访问周期内得到缓存,同时可以有效的避免“历史效应”对缓存的影响,使得Rame具有更优秀的性能与适应性。 3)基于Rame进行扩展与优化,提出针对SSD作为缓存介质的缓存管理策略Rame-SSD,通过“数据筛选”及空间局部性的利用等方法以较小的代价避免了大量SSD写入,有效延长SSD寿命的同时保证了缓存的命中率,并对负载的变化有较强的适应性。 4)设计与实现Rame与Rame-SSD算法,并在多种负载下与相关系统进行对比评测。 通过评测我们发现,Rame相比于其他缓存策略有着更广的负载适应性,超过60%负载下可提供最优命中率,其他情况下提供次优命中率;而Rame-SSD在命中率提高(最高达30%)的同时大量减少了SSD的写入量,相对于其他针对SSD缓存策略响应时间降低可达33.6%。