论文部分内容阅读
随着大数据时代的到来,全球数据总量爆炸式增长,云存储系统的规模越来越大,系统中硬盘故障的发生频率也因此变得越来越高。传统的被动容错模式只能通过不断增加冗余保证系统可靠性,这给企业带来沉重的成本压力和维护开销。相反,硬盘故障预测技术可以在硬盘故障发生之前就将其预测出来,通知用户迁移保护危险数据,避免或减少硬盘故障可能造成的损失,这是一种主动容错机制。如果预测性能足够好,主动容错机制可以大大提高系统的可靠性和可用性。 国内外研究者已经提出了一些基于统计学和机器学习算法的硬盘故障预测方法,但这些方法并未针对硬盘故障预测最重要的应用场景——数据中心中大规模云存储系统——的特点进行设计,具体表现为:(1)方法问题:已有模型大都是“黑盒”模型,难以给出明确的预测规则和标准,用户无法分析导致硬盘故障的可能原因;(2)评价指标问题:已有方法使用FAR(False Alarm Rate)和FDR(Failure Detection Rate)评价模型的预测准确率性能,不能直接、准确地反映模型在云存储系统中的实际应用价值(保护危险数据,而不是仅仅预测出它们);(3)可靠性分析问题:通过可靠性分析,可以定量评价硬盘故障预测方法对系统可靠性的提升效果,指导创建满足用户可靠性需求的预测模型,然而,当前存储系统可靠性分析技术很少关注云存储系统,且不能准确地评价主动容错机制对系统可靠性带来的影响。 因此,本论文针对当前大规模云存储系统的特点,设计了适合实际应用的硬盘故障预测方法,主要工作有: 第一,为了提高预测性能、并帮助用户分析硬盘故障的原因,本文提出基于决策树(Classification and Regression Trees,CARTs)的硬盘故障预测模型,该模型具有良好的预测准确率、稳定性和可解释性。在采集于大型数据中心的真实数据集上,提出的决策树预测模型可以达到95%的预测准确率和低于0.1%的误报率,完全超越了前人研究最好的预测模型——反向传播神经网络模型。模拟了预测模型在数据中心的实际应用——在不同型号硬盘构成的云存储系统、多种型号硬盘构成的混合云存储系统、以及不同规模云存储系统中的应用,结果显示决策树预测模型在各种不同的应用场景下都有很好的、稳定的预测性能。除此之外,决策树的决策规则清晰地解释了SMART属性值与故障之间的关系,能为采取措施减少故障提供依据。基于设计的主动容错RAID-6存储系统可靠性评价模型进行分析,决策树预测模型可以明显地提高大规模云存储系统的可靠性并且减少系统构建成本。 第二,为了直接反映硬盘故障预测对云存储系统的数据保护效果,本文针对云存储应用场景,为硬盘故障预测模型提出两个新的评价指标:迁移率,用来描述有多少危险数据由于正确预测和及时迁移而得到成功保护;误迁移率,用来描述有多少健康硬盘上的数据由于误报而被误迁移。同时,本文还提出基于梯度提升树(Gradient Boosted Regression Trees,GBRTs)的硬盘剩余寿命预测模型,根据硬盘当前属性值预测它剩余的工作时间。而且,根据问题特点、面向新评价指标,本文改进了梯度提升树的训练算法。在真实数据集上的实验结果表明,新评价指标比之前的指标更有实际意义,提出的梯度提升树模型的迁移率优于前人研究最好的硬盘剩余寿命预测模型——递归神经网络模型。 第三,为了高效定量评价预测对系统可靠性的提升效果,本文推导出四个可靠性评价公式,分别估计主动容错RAID-5、RAID-6、双副本和三副本云存储系统在一段运行周期内发生的数据丢失事件的期望个数。这些公式采用更符合云存储系统实际情况的韦布分布(不再是泊松分布)函数模拟硬盘故障和修复过程,韦布分布函数能表示硬盘依赖时间变化的故障率,得到的可靠性公式能准确考量主动容错技术、硬盘整体故障、故障修复、潜在扇区错误、以及磁盘清洗过程对系统全局可靠性的影响。基于真实的系统参数,公式的分析结果与仿真结果相互吻合,验证了可靠性评价公式的有效性。这些公式可以帮助设计者更好地为云存储系统设计主动容错机制、以及在系统可用性和可靠性之间权衡。 总之,本文提出了能直接反映数据保护效果的硬盘故障预测模型新评价指标,提出了更准确、更稳定、可解释的新预测模型,提出了高效的主动容错云存储系统可靠性评价方法。这些结果的融合,形成了完整的云存储系统故障预测、可靠性分析机制,促进硬盘故障预测技术在云存储系统中的应用,为实现主动容错提供了基础。