云存储系统硬盘故障预测及可靠性评价研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：lostcity_online

【摘要】

：

随着大数据时代的到来，全球数据总量爆炸式增长，云存储系统的规模越来越大，系统中硬盘故障的发生频率也因此变得越来越高。传统的被动容错模式只能通过不断增加冗余保证系统可靠

【作者】

：

李静

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2016年期

【关键词】

：

云存储系统硬盘结构故障预测可靠性评价

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来，全球数据总量爆炸式增长，云存储系统的规模越来越大，系统中硬盘故障的发生频率也因此变得越来越高。传统的被动容错模式只能通过不断增加冗余保证系统可靠性，这给企业带来沉重的成本压力和维护开销。相反，硬盘故障预测技术可以在硬盘故障发生之前就将其预测出来，通知用户迁移保护危险数据，避免或减少硬盘故障可能造成的损失，这是一种主动容错机制。如果预测性能足够好，主动容错机制可以大大提高系统的可靠性和可用性。　　国内外研究者已经提出了一些基于统计学和机器学习算法的硬盘故障预测方法，但这些方法并未针对硬盘故障预测最重要的应用场景——数据中心中大规模云存储系统——的特点进行设计，具体表现为:(1)方法问题:已有模型大都是“黑盒”模型，难以给出明确的预测规则和标准，用户无法分析导致硬盘故障的可能原因;(2)评价指标问题:已有方法使用FAR(False Alarm Rate)和FDR(Failure Detection Rate)评价模型的预测准确率性能，不能直接、准确地反映模型在云存储系统中的实际应用价值（保护危险数据，而不是仅仅预测出它们）;(3)可靠性分析问题:通过可靠性分析，可以定量评价硬盘故障预测方法对系统可靠性的提升效果，指导创建满足用户可靠性需求的预测模型，然而，当前存储系统可靠性分析技术很少关注云存储系统，且不能准确地评价主动容错机制对系统可靠性带来的影响。　　因此，本论文针对当前大规模云存储系统的特点，设计了适合实际应用的硬盘故障预测方法，主要工作有:　　第一，为了提高预测性能、并帮助用户分析硬盘故障的原因，本文提出基于决策树（Classification and Regression Trees，CARTs）的硬盘故障预测模型，该模型具有良好的预测准确率、稳定性和可解释性。在采集于大型数据中心的真实数据集上，提出的决策树预测模型可以达到95％的预测准确率和低于0.1％的误报率，完全超越了前人研究最好的预测模型——反向传播神经网络模型。模拟了预测模型在数据中心的实际应用——在不同型号硬盘构成的云存储系统、多种型号硬盘构成的混合云存储系统、以及不同规模云存储系统中的应用，结果显示决策树预测模型在各种不同的应用场景下都有很好的、稳定的预测性能。除此之外，决策树的决策规则清晰地解释了SMART属性值与故障之间的关系，能为采取措施减少故障提供依据。基于设计的主动容错RAID-6存储系统可靠性评价模型进行分析，决策树预测模型可以明显地提高大规模云存储系统的可靠性并且减少系统构建成本。　　第二，为了直接反映硬盘故障预测对云存储系统的数据保护效果，本文针对云存储应用场景，为硬盘故障预测模型提出两个新的评价指标:迁移率，用来描述有多少危险数据由于正确预测和及时迁移而得到成功保护;误迁移率，用来描述有多少健康硬盘上的数据由于误报而被误迁移。同时，本文还提出基于梯度提升树(Gradient Boosted Regression Trees，GBRTs)的硬盘剩余寿命预测模型，根据硬盘当前属性值预测它剩余的工作时间。而且，根据问题特点、面向新评价指标，本文改进了梯度提升树的训练算法。在真实数据集上的实验结果表明，新评价指标比之前的指标更有实际意义，提出的梯度提升树模型的迁移率优于前人研究最好的硬盘剩余寿命预测模型——递归神经网络模型。　　第三，为了高效定量评价预测对系统可靠性的提升效果，本文推导出四个可靠性评价公式，分别估计主动容错RAID-5、RAID-6、双副本和三副本云存储系统在一段运行周期内发生的数据丢失事件的期望个数。这些公式采用更符合云存储系统实际情况的韦布分布（不再是泊松分布）函数模拟硬盘故障和修复过程，韦布分布函数能表示硬盘依赖时间变化的故障率，得到的可靠性公式能准确考量主动容错技术、硬盘整体故障、故障修复、潜在扇区错误、以及磁盘清洗过程对系统全局可靠性的影响。基于真实的系统参数，公式的分析结果与仿真结果相互吻合，验证了可靠性评价公式的有效性。这些公式可以帮助设计者更好地为云存储系统设计主动容错机制、以及在系统可用性和可靠性之间权衡。　　总之，本文提出了能直接反映数据保护效果的硬盘故障预测模型新评价指标，提出了更准确、更稳定、可解释的新预测模型，提出了高效的主动容错云存储系统可靠性评价方法。这些结果的融合，形成了完整的云存储系统故障预测、可靠性分析机制，促进硬盘故障预测技术在云存储系统中的应用，为实现主动容错提供了基础。

其他文献

人脸图像非真实感肖像生成的研究

学位

附加交易费用的跟踪误差鲁棒投资组合优化方法研究

二十世纪五十年代Markowitz提出的均值-方差（Mean-Variance）模型研究在一定的风险状况下如何获得最大期望收益，或在一定的期望收益水平上如何使风险达到最小的投资组合问题，奠定

学位

交易费用鲁棒性能跟踪误差投资组合优化均值-方差模型

Biswapped网络中Node-to-Set并行路由及泛圈性研究

随着超级计算机系统的快速发展，人们对互连网络的结构要求越来越高，各种组合网络的研究也因此受到更多的关注。组合网络提供了以任意图为因子网络构建更大规模网络的一般方式，所

学位

互连网络Biswapped网络点不相交路泛圈性并行路由

Hamilton回路新算法在组合优化方面的应用与研究

组合优化问题是一类比较常见的问题，其理论与方法已经广泛应用于运筹学、控制论、管理科学和计算机科学等领域，并在工程技术、经济、军事等诸多方面都有着极为重要的应用。如:

学位

组合优化深度优先最小生成树prim算法Hamilton回路改进策略

多处理体系结构的一致性目录技术研究

学位

SAR图像海洋目标识别系统预处理相关问题研究

学位

基于行人GPS轨迹的群集模式研究

近年来，随着GPS系统的不断发展，以及基于位置服务的普及，大量的时空数据在日常生活中日益积累，并为不同类型的应用所服务。由移动对象产生的时空数据被称作移动对象轨迹。如何从

学位

行人GPS轨迹群集模式自由度重要场所模式提取算法

无线网络中非干扰不相交路由算法研究

在无线网络的路由中，如果处于不同路径上的两个节点间的距离太小，则在这两条路径上传输的数据相互之间很有可能会发生干扰从而导致数据的出错甚至丢失。这种场合就需要设计非干

学位

无线网络非干扰不相交路由算法拟人化策略时间复杂度

基于模糊理论的云存储系统能耗与性能优化方案研究

云计算、物联网、移动互联、社交媒体等新兴信息技术和应用模式的快速发展，促使全球数据量急剧增加，推动人类社会迈入大数据时代。大数据应用背景下，用户对存储空间的需求越来越

学位

云存储访问性能模糊理论性能优化能耗优化算法

OFDMA认知无线电网络中频谱定价与频谱分配

认知无线电网络作为一种革新的通信范例，通过动态频谱共享，有效提升了紧缺频谱资源的利用率。认知无线电网络中的认知用户通过与周边环境进行交互，自适应调节传输参数，以共享授权

学位

认知无线电博弈论频谱定价频谱分配非线性规划

云存储系统硬盘故障预测及可靠性评价研究

其他学术论文