论文部分内容阅读
磁盘是数据存储最常用的设备之一,磁盘故障预测是保障数据可靠性的重要技术手段。磁盘故障预测方法一般可以分为两大类:设备级故障(即整盘故障)预测和扇区级故障(即局部磁盘故障)预测。学术界采用一些传统机器学习方法,例如支持向量机、逻辑斯特回归、决策树和随机森林等,预测磁盘故障并取得了一些成果。但是,这些研究仍然存在以下三个方面不足:(1)面对实际数据中心中单一型号数量较少(小样本)磁盘的故障预测问题,预测模型容易过拟合,从而导致预测结果较差;(2)已有方法不是通用的建模方法,受到样本数据集大小、正负样本比例、模型适用性和适应性等方面的制约,导致预测效果不理想;(3)目前扇区级预测仅停留在二分类模型的研究,在利用预测结果优化磁盘巡检策略时会带来较大巡检代价,实用性不高。针对上述不足,从大型数据中心的实际需求出发,研究异构磁盘的故障预测方法与应用,以解决上述问题。
针对小样本磁盘预测结果较差的问题,提出了一种基于迁移学习的小样本磁盘故障预测方法TLDFP。在大型数据中心的异构磁盘系统中,将那些同一型号数量较少的磁盘称为小样本磁盘。由于这些小样本磁盘训练样本数据相对不足,使用这些小样本磁盘的数据集直接利用传统机器学习算法进行建模会增加模型过度拟合或泛化能力下降的风险,从而导致较差的预测性能。TLDFP采用KL散度(Kullback-Leibler Divergence,KLD)值来衡量数据集之间的分布差异,并选择KLD值最小的大样本磁盘型号的数据集,然后采用迁移学习方法TrAdaBoost对该大样本磁盘数据集建立预测模型,通过在训练过程中对训练样本的权值进行适当地调整,减小大样本磁盘型号数据集和小样本磁盘型号数据集之间分布差异,从而达到对小样本磁盘进行故障预测的目的。在两个实际数据中心的数据集上进行相关实验,方法TLDFP的平均故障检测率(FailureDetectionRate,FDR,即正确预测为故障盘的比例)达到96%,而误报率(FailureAlarmRate,FAR,即错误地把健康磁盘预测为故障磁盘的比例)仅有0.5%。而且,首次在不同类型的磁盘(HDD,SSD)中验证了TLDFP在小样本磁盘故障预测的有效性。
针对目前在大型数据中心对异构磁盘的故障预测模型不通用的问题,提出了一种基于高维磁盘状态嵌入的通用磁盘故障预测系统HDDse。在大型数据中心中,除了小样本磁盘故障预测问题以外,目前一些研究提出的磁盘故障预测模型对于数据中心的异构磁盘来说并不是一种通用的预测模型。具体来说,没有一个通用的预测模型可以同时解决现有方法的不足,HDDse结合了基于距离的异常检测方法和基于神经网络预测方法的优点,创新性地提出了一种基于长短期记忆神经网络(Long Short-Term Memory,LSTM)的孪生神经网络方法。其中LSTM的结构用于学习磁盘健康状态的长期动态变化行为,而孪生神经网络结构可以将低维磁盘信息映射到高维空间进行特征学习,并生成统一且高效的高维磁盘状态嵌入,用于异构磁盘的故障预测。该方法不仅可以提供更好的预测能力,还可以对未在训练数据集中出现的磁盘型号的样本进行有效地预测,同时在数据集分布极度不均衡或小样本数据集的情况下也表现良好。在两个实际数据中心的数据集上进行的实验证明HDDse预测系统优于目前最新的研究方法,极大地提升了存储系统的可靠性。
针对目前扇区级故障预测存在的问题,提出了一种基于分层的智能磁盘巡检系统TS。设备级的磁盘故障预测结果往往不能完全满足目前数据中心的实际需求。其原因有二,首先,一些扇区级的故障,例如潜在扇区错误并不会导致设备级的磁盘故障,但是这些扇区错误的发生会导致I/O读写错误从而影响数据可靠性。其次,目前设备级的磁盘故障预测模型的误报率仍在1%左右,在大规模数据中心中造成了巨大的额外磁盘替换开销。因此,一些研究人员开始研究利用人工智能技术预测磁盘潜在扇区错误(Latent Sector Error,LSE),并利用扇区错误的预测结果优化磁盘巡检策略。但是,现有方法具有一些局限性,例如仅利用训练数据的单个独立的快照数据来进行建模,忽略了随着时间推移的磁盘不同状态之间的顺序依赖性。其次,这些预测模型是二分类模型,在指导优化巡检策略时,会增加一些不必要的巡检代价。而且,针对二分类的预测结果,这些方法直接加速了具有潜在扇区错误的整个磁盘的巡检速率,而忽略了那些存在高风险的磁盘局部区域。针对上述问题,提出了一种智能磁盘巡检方案TS。其包含一种基于LSTM的自适应巡检速率控制器,不仅可以预测LSE磁盘,还可以预测磁盘发生LSE的风险等级。通过该预测结果可以以自适应的速率来加速磁盘巡检。同时,基于扇区错误局部性设计了一个可在磁盘中定位高风险区域的模块来进一步提高巡检效率,并提出一种可以利用业务I/O访问特点的捎带模式的巡检策略来提高存储系统的可靠性。通过实验证明,系统TS与目前最新的巡检方案相比,在减少了约80%的存储系统平均检测时间(Mean Time To Detection,MTTD)的同时也降低了约20%的磁盘巡检开销。
针对小样本磁盘预测结果较差的问题,提出了一种基于迁移学习的小样本磁盘故障预测方法TLDFP。在大型数据中心的异构磁盘系统中,将那些同一型号数量较少的磁盘称为小样本磁盘。由于这些小样本磁盘训练样本数据相对不足,使用这些小样本磁盘的数据集直接利用传统机器学习算法进行建模会增加模型过度拟合或泛化能力下降的风险,从而导致较差的预测性能。TLDFP采用KL散度(Kullback-Leibler Divergence,KLD)值来衡量数据集之间的分布差异,并选择KLD值最小的大样本磁盘型号的数据集,然后采用迁移学习方法TrAdaBoost对该大样本磁盘数据集建立预测模型,通过在训练过程中对训练样本的权值进行适当地调整,减小大样本磁盘型号数据集和小样本磁盘型号数据集之间分布差异,从而达到对小样本磁盘进行故障预测的目的。在两个实际数据中心的数据集上进行相关实验,方法TLDFP的平均故障检测率(FailureDetectionRate,FDR,即正确预测为故障盘的比例)达到96%,而误报率(FailureAlarmRate,FAR,即错误地把健康磁盘预测为故障磁盘的比例)仅有0.5%。而且,首次在不同类型的磁盘(HDD,SSD)中验证了TLDFP在小样本磁盘故障预测的有效性。
针对目前在大型数据中心对异构磁盘的故障预测模型不通用的问题,提出了一种基于高维磁盘状态嵌入的通用磁盘故障预测系统HDDse。在大型数据中心中,除了小样本磁盘故障预测问题以外,目前一些研究提出的磁盘故障预测模型对于数据中心的异构磁盘来说并不是一种通用的预测模型。具体来说,没有一个通用的预测模型可以同时解决现有方法的不足,HDDse结合了基于距离的异常检测方法和基于神经网络预测方法的优点,创新性地提出了一种基于长短期记忆神经网络(Long Short-Term Memory,LSTM)的孪生神经网络方法。其中LSTM的结构用于学习磁盘健康状态的长期动态变化行为,而孪生神经网络结构可以将低维磁盘信息映射到高维空间进行特征学习,并生成统一且高效的高维磁盘状态嵌入,用于异构磁盘的故障预测。该方法不仅可以提供更好的预测能力,还可以对未在训练数据集中出现的磁盘型号的样本进行有效地预测,同时在数据集分布极度不均衡或小样本数据集的情况下也表现良好。在两个实际数据中心的数据集上进行的实验证明HDDse预测系统优于目前最新的研究方法,极大地提升了存储系统的可靠性。
针对目前扇区级故障预测存在的问题,提出了一种基于分层的智能磁盘巡检系统TS。设备级的磁盘故障预测结果往往不能完全满足目前数据中心的实际需求。其原因有二,首先,一些扇区级的故障,例如潜在扇区错误并不会导致设备级的磁盘故障,但是这些扇区错误的发生会导致I/O读写错误从而影响数据可靠性。其次,目前设备级的磁盘故障预测模型的误报率仍在1%左右,在大规模数据中心中造成了巨大的额外磁盘替换开销。因此,一些研究人员开始研究利用人工智能技术预测磁盘潜在扇区错误(Latent Sector Error,LSE),并利用扇区错误的预测结果优化磁盘巡检策略。但是,现有方法具有一些局限性,例如仅利用训练数据的单个独立的快照数据来进行建模,忽略了随着时间推移的磁盘不同状态之间的顺序依赖性。其次,这些预测模型是二分类模型,在指导优化巡检策略时,会增加一些不必要的巡检代价。而且,针对二分类的预测结果,这些方法直接加速了具有潜在扇区错误的整个磁盘的巡检速率,而忽略了那些存在高风险的磁盘局部区域。针对上述问题,提出了一种智能磁盘巡检方案TS。其包含一种基于LSTM的自适应巡检速率控制器,不仅可以预测LSE磁盘,还可以预测磁盘发生LSE的风险等级。通过该预测结果可以以自适应的速率来加速磁盘巡检。同时,基于扇区错误局部性设计了一个可在磁盘中定位高风险区域的模块来进一步提高巡检效率,并提出一种可以利用业务I/O访问特点的捎带模式的巡检策略来提高存储系统的可靠性。通过实验证明,系统TS与目前最新的巡检方案相比,在减少了约80%的存储系统平均检测时间(Mean Time To Detection,MTTD)的同时也降低了约20%的磁盘巡检开销。