论文部分内容阅读
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓解了冗余数据问题,大大提高了存储利用率,因而受到学术界和工业界的广泛关注。目前最为火热的虚拟化领域和云计算领域,对消除数据冗余同样有着迫切的需求,因此重复数据删除技术已成为目前存储领域的一个研究热点,其中对于重复数据删除系统吞吐率的研究最受关注。以往的研究都是通过减少磁盘访问来提高系统吞吐率的,本文研究发现当磁盘访问这一系统系统性能瓶颈被消除之后,系统的性能还是会受到系统中计算密集型任务的影响。如何降低计算任务对重复数据删除系统的影响是本文的研究重点。
本文采取了一系列技术手段来对重复数据删除系统进行并行优化。首先,系统引入了流水线技术来提高重复数据删除过程中计算任务的并发度,提高系统的整体性能。本文给出了详细的重复数据删除流水线设计方案和流水线平衡性解决方案。其次,本文将协处理器引入重复数据删除系统来加速计算密集型任务,降低CPU的计算负载。本文引入PadLock加速重复数据删除过程中的摘要计算和数据加密工作,引入GPU来降低Bloom filter计算和数据压缩计算的执行时间。上述两个措施提高了重复数据删除系统的并发度,降低了计算任务对系统性能的影响,很好地提升了系统的性能。
本文设计了调整流水线执行顺序来提高重复数据删除系统数据集适应性的解决方案。通过调整流水线的执行顺序使得系统在不同的数据集上都能发挥最好的性能,得到最佳的吞吐率。本文给出了一个数学模型来选择最优的流水线顺序。
实验表明经过并行优化的重复数据删除系统在吞吐率上确实有很大的提升,数学模型也确实达到了预期的效果。