论文部分内容阅读
如今随着大数据与云计算技术的飞速发展,带动了海量的算力与存储需求。数据中心作为幕后的基石,其运行状态有较高要求。当数据中心服务器运行负荷变化或者外部环境改变时,可能会造成服务器的过热,形成局部过热点,进而引发数据中心内部温度分布不均衡的问题,导致制冷能耗的上升。因此需要借助自动化的状态诊断加以应对。基于热红外成像技术,本文提出了一套基于图像处理与模式识别技术的服务器运行状态诊断系统,并根据诊断系统的算法结构设计了一款自动化诊断软件,将理论方法落地到具体的工程实践中。本文的研究目标是诊断系统利用红外热图像识别服务器故障状态,为数据中心热点问题的解决提供支持。实验过程中系统模拟服务器可能出现的五种运行状态,利用红外热成像仪采集服务器出风口热图像作为系统输入数据,基于模式识别技术构建服务器状态诊断模型。考虑到实际工程应用情景,诊断模型可能面临的服务器故障数据样本量不足、热成像仪成像质量低的问题,因此提出了基于对抗生成网络的系统优化方法。最后根据诊断系统的算法架构设计了诊断软件。服务器状态诊断系统的组成:首先通过热成像仪对运行状态下服务器的出风口处采集热图像;然后对热图像进行标准化预处理;将同态滤波增强之后的图像进行一维最大熵热点分割,得到服务器热点图;根据不同类别的分类器选择不同的特征提取方式,其中支持向量机(SVM)采用人工提取的三大类特征:统计特征、纹理特征、形态学特征,卷积神经网络由AlexNet网络模型改进而来,采用卷积核自动提取特征;最后通过测试集样本测试诊断模型的性能。实验表明,SVM与AlexNet均能达到90%左右的诊断准确率。由于训练样本数量的不平衡以及类间样本差异不显著的问题,导致了系统诊断准确率的瓶颈,因此本文提出了深度卷积对抗生成网络(DCGAN)合成样本的解决方案。借助DCGAN扩展诊断模型训练集的方式提升诊断准确率。通过多组对比实验,找到一项最佳的诊断系统优化组合:DCGAN+AlexNet。该优化方法能够将诊断准确率提升至95.11%。基于诊断系统的算法结构,本文借助Qt跨平台开发环境以及OpenCV计算机视觉开源库,设计开发了一款服务器诊断软件。软件包括三个功能子界面:数据读取与存储、模型训练与诊断、诊断报告。在实际的工程应用场景中,该软件将为数据中心运维人员提供科学合理的技术支持。