大型数据中心异构磁盘的故障预测方法与应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Morakot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
磁盘是数据存储最常用的设备之一,磁盘故障预测是保障数据可靠性的重要技术手段。磁盘故障预测方法一般可以分为两大类:设备级故障(即整盘故障)预测和扇区级故障(即局部磁盘故障)预测。学术界采用一些传统机器学习方法,例如支持向量机、逻辑斯特回归、决策树和随机森林等,预测磁盘故障并取得了一些成果。但是,这些研究仍然存在以下三个方面不足:(1)面对实际数据中心中单一型号数量较少(小样本)磁盘的故障预测问题,预测模型容易过拟合,从而导致预测结果较差;(2)已有方法不是通用的建模方法,受到样本数据集大小、正负样本比例、模型适用性和适应性等方面的制约,导致预测效果不理想;(3)目前扇区级预测仅停留在二分类模型的研究,在利用预测结果优化磁盘巡检策略时会带来较大巡检代价,实用性不高。针对上述不足,从大型数据中心的实际需求出发,研究异构磁盘的故障预测方法与应用,以解决上述问题。
  针对小样本磁盘预测结果较差的问题,提出了一种基于迁移学习的小样本磁盘故障预测方法TLDFP。在大型数据中心的异构磁盘系统中,将那些同一型号数量较少的磁盘称为小样本磁盘。由于这些小样本磁盘训练样本数据相对不足,使用这些小样本磁盘的数据集直接利用传统机器学习算法进行建模会增加模型过度拟合或泛化能力下降的风险,从而导致较差的预测性能。TLDFP采用KL散度(Kullback-Leibler Divergence,KLD)值来衡量数据集之间的分布差异,并选择KLD值最小的大样本磁盘型号的数据集,然后采用迁移学习方法TrAdaBoost对该大样本磁盘数据集建立预测模型,通过在训练过程中对训练样本的权值进行适当地调整,减小大样本磁盘型号数据集和小样本磁盘型号数据集之间分布差异,从而达到对小样本磁盘进行故障预测的目的。在两个实际数据中心的数据集上进行相关实验,方法TLDFP的平均故障检测率(FailureDetectionRate,FDR,即正确预测为故障盘的比例)达到96%,而误报率(FailureAlarmRate,FAR,即错误地把健康磁盘预测为故障磁盘的比例)仅有0.5%。而且,首次在不同类型的磁盘(HDD,SSD)中验证了TLDFP在小样本磁盘故障预测的有效性。
  针对目前在大型数据中心对异构磁盘的故障预测模型不通用的问题,提出了一种基于高维磁盘状态嵌入的通用磁盘故障预测系统HDDse。在大型数据中心中,除了小样本磁盘故障预测问题以外,目前一些研究提出的磁盘故障预测模型对于数据中心的异构磁盘来说并不是一种通用的预测模型。具体来说,没有一个通用的预测模型可以同时解决现有方法的不足,HDDse结合了基于距离的异常检测方法和基于神经网络预测方法的优点,创新性地提出了一种基于长短期记忆神经网络(Long Short-Term Memory,LSTM)的孪生神经网络方法。其中LSTM的结构用于学习磁盘健康状态的长期动态变化行为,而孪生神经网络结构可以将低维磁盘信息映射到高维空间进行特征学习,并生成统一且高效的高维磁盘状态嵌入,用于异构磁盘的故障预测。该方法不仅可以提供更好的预测能力,还可以对未在训练数据集中出现的磁盘型号的样本进行有效地预测,同时在数据集分布极度不均衡或小样本数据集的情况下也表现良好。在两个实际数据中心的数据集上进行的实验证明HDDse预测系统优于目前最新的研究方法,极大地提升了存储系统的可靠性。
  针对目前扇区级故障预测存在的问题,提出了一种基于分层的智能磁盘巡检系统TS。设备级的磁盘故障预测结果往往不能完全满足目前数据中心的实际需求。其原因有二,首先,一些扇区级的故障,例如潜在扇区错误并不会导致设备级的磁盘故障,但是这些扇区错误的发生会导致I/O读写错误从而影响数据可靠性。其次,目前设备级的磁盘故障预测模型的误报率仍在1%左右,在大规模数据中心中造成了巨大的额外磁盘替换开销。因此,一些研究人员开始研究利用人工智能技术预测磁盘潜在扇区错误(Latent Sector Error,LSE),并利用扇区错误的预测结果优化磁盘巡检策略。但是,现有方法具有一些局限性,例如仅利用训练数据的单个独立的快照数据来进行建模,忽略了随着时间推移的磁盘不同状态之间的顺序依赖性。其次,这些预测模型是二分类模型,在指导优化巡检策略时,会增加一些不必要的巡检代价。而且,针对二分类的预测结果,这些方法直接加速了具有潜在扇区错误的整个磁盘的巡检速率,而忽略了那些存在高风险的磁盘局部区域。针对上述问题,提出了一种智能磁盘巡检方案TS。其包含一种基于LSTM的自适应巡检速率控制器,不仅可以预测LSE磁盘,还可以预测磁盘发生LSE的风险等级。通过该预测结果可以以自适应的速率来加速磁盘巡检。同时,基于扇区错误局部性设计了一个可在磁盘中定位高风险区域的模块来进一步提高巡检效率,并提出一种可以利用业务I/O访问特点的捎带模式的巡检策略来提高存储系统的可靠性。通过实验证明,系统TS与目前最新的巡检方案相比,在减少了约80%的存储系统平均检测时间(Mean Time To Detection,MTTD)的同时也降低了约20%的磁盘巡检开销。
其他文献
保障智能卡、射频识别、无线传感器网络等资源受限设备的信息安全,已成为密码学领域备受关注的科学问题。为能更好实现密码性能在安全与高效之间的有效兼顾,本文对基于动态轮数的混沌分组密码开展研究。主要研究内容说明如下:  针对有限运算精度造成混沌系统动力学特性退化,通过统计测试分析得出量化方法和参数设置对数字混沌特性的影响规律,采用级联和扰动的补偿方式构建动力学特性显著增强的数字混沌模型,从而更好满足混沌
学位
量子信息与量子计算领域中两个著名的研究成果——BB84密钥分配协议(Bennett-Brassard protocol proposed in 1984)和Shor的质因子分解算法——均对现有的密码体系产生了深远的影响。然而,更具广泛应用前景的Grover迭代算法在穷举搜索之外的密码学应用还未经充分研究。此外,另一类典型的量子迭代运算过程——量子随机行走——的非马尔科夫模式(或具有记忆的量子行走算
数据建模是机器学习和人工智能领域的重要研究问题,聚类分析可以有效地挖掘数据内在的模式和规律。复杂网络(图数据)作为新的研究热点,对理解社会复杂系统有着重要的作用,可以有效地用于推荐系统、恐怖组织挖掘等问题。近年来,网络结构的动态演变给社团检测建模提出了新的挑战,如何采用高效的学习模型挖掘动态复杂网络内在的规律,实现社团检测和演化分析,成为动态复杂网络研究的重点。从动态复杂网络中节点重要性、社团结构
语义分割旨在为图像中的每个像素分配一个预定义的语义类标签,使计算机能够通过视觉的方式对场景进行细粒度地理解。该技术被广泛应用于自动驾驶、城市规划、智能家居等任务中,是计算机视觉领域的重要分支。近年来,基于深度卷积神经网络的分割技术将任务性能提升到了一个新的水平。然而,现有的深度学习方法需要大量的像素级人工标注图像作为训练数据,使得这些方法所需的时间和金钱成本十分昂贵。为了减轻手工标注数据带来的沉重
学位
异构并行系统通常是指由中央处理器(Central Processing Unit,CPU)与图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)等协处理器共同组成的计算方式异构的高性能计算系统,因能提供更为高效的应用加速能力而被广泛部署,在大数据、人工智能等众多关键领域得到了广泛应用。当
Android(安卓)操作系统占据了智能终端操作系统的大部分市场份额,搭载Android操作系统的智能设备成为主流。由于移动智能终端携带了较多的用户隐私信息,同时Android应用的安全机制存在一定的局限,导致Android应用可能存在严重的安全隐患。需要对Android应用的安全机制特别是权限机制进行深入的研究,分析Android应用中的权限安全风险。同时关注和研究Android应用的安全漏洞,
学位
由于互联网信息的快速增长,用户面临着信息过载的问题。借助数据挖掘和人工智能领域中的相关技术,推荐系统能够帮助用户快速找到其感兴趣的信息,在社交网络、电子商务、在线阅读和广告投放等领域得到了广泛的应用。随着互联网应用的多元化发展,传统的推荐模型难以直接运用到新领域中以解决相应的问题。  以智能手机,笔记本电脑等为代表的电子产品更新换代通常较为频繁,而用户对于此类产品的消费周期则相对较长。传统的推荐系
学位
随着计算机软硬件技术的飞速发展,传统的动态随机访问存储器(Dynamic Random Access Memory,DRAM)因其存储能耗大、存储密度小、可扩展性有限等缺点已经无法满足应用越来越大的内存需求。新兴非易失性存储器(Non-Volatile Memory,NVM)尽管可以避免此类问题,但因其访问时延高、写次数有限及写功耗大,也无法直接作为系统内存。因此,混合使用小容量DRAM和大容量N
学位
随着计算机网络的发展以及智能手机等多媒体获取设备的普及,多媒体数据呈爆炸式增长,其中图像和视频数据已经成为大数据时代的主要数据类型。如何在海量的图像中以较小的时空开销准确找到用户感兴趣的图像成为多媒体领域的研究热点。针对图像的底层特征与高层语义间的“语义鸿沟”问题,以及全局图像表示缺乏几何不变性和空间占用较大的问题,利用深度学习、特征编码、哈希学习等方面的知识,论文系统探讨了图像检索系统中的描述符
学位
信息技术的发展促使数据规模急剧增长,进一步推动了云计算技术的发展与成熟,使得越来越多的企业和个人将业务或应用迁移到云计算平台上。在云计算平台中,云服务提供商往往采用共享服务架构,并通过虚拟化技术向用户交付服务。比如将租户应用部署在虚拟机内,而虚拟机共享计算、存储和网络等物理资源。共享服务架构能够提高资源利用率并降低管理成本,但会引入资源竞争,使得租户间的性能相互干扰。云存储系统作为存储服务的载体,