论文部分内容阅读
为了满足大数据背景下不断增长的数据应用需求,存储系统正在由传统的集中式架构向分布式架构演进,原有职能任务被解耦拆分为元数据服务和数据服务两部分,极大的提升了系统的横向扩展能力、并行服务能力和容灾容错能力。然而,在以云数据中心为代表的集中化服务模式下,分布式存储系统的数据安全却面临着前所未有的挑战,主要原因有:元数据节点存在单点故障缺陷、数据节点全面布防困难、泛在化的漏洞后门无法彻查、以及开放共享模型加剧了安全隐患。对此,研究者前期提出了一系列防护方法,包括:引入传统防御手段、设计新的安全架构、开发自主可控或可信的硬件平台、数据加密等等,但都存在一定的局限性,尤其是无法有效应对未知漏洞和后门造成的未知威胁。网络空间拟态防御(Cyberspace Mimic Defense,CMD)是国内提出的一种主动防御理论,针对当前信息系统架构普遍存在的静态、相似、单一“基因缺陷”,通过引入动态(Dynamicity)、异构(Heterogeneity)、冗余(Redundancy)机制对其进行“拟态化”改造,使新的系统对漏洞和后门具备内生的抵御能力。近年来,针对CMD的研究分析和应用测试均取得了很好的效果,从理论和工程层面验证了其有效性和可行性。因此,将CMD的相关思想和机制引入到分布式存储架构中,为其提供对未知漏洞后门的防御能力,能够弥补现有防护方法的局限和不足,从而改善当前数据安全的严峻现状。基于上述考虑,本文依托国家自然科学基金创新研究群体项目“网络空间拟态防御基础理论研究”和面上项目“网络空间拟态安全异构冗余机制研究”,对分布式存储系统的拟态化架构与关键技术展开研究。论文结合大数据Hadoop平台中的分布式文件系统(Hadoop Distributed File System,HDFS)实例,首先提出并实现了一种基于“要地防御”原则的拟态化架构,然后进一步探索了该架构下调度机制的效率与鲁棒性、裁决机制的可信性、以及数据副本的差异化放置问题。主要研究成果如下:1.针对当前分布式存储系统中元数据节点单点故障和数据节点全面布放困难的问题,通过引入拟态防御的DHR模型(Dynamic Heterogeneous Redundancy)及其相关安全机制,从构造上增强系统的对漏洞和后门的防御能力。首先,对分布式存储系统面临的主要威胁和攻击途径进行分析,定位其“核心的薄弱点”,结合防护的代价与有效性提出一种可行的安全构造方法。其次,以大数据存储HDFS为目标对象,设计了一种面向元数据服务的拟态化架构,该架构通过搭建元数据服务DHR结构保护系统核心信息和功能,通过副本的异构化放置保护用户数据。然后,通过对系统的安全性分析,从理论上分析了该架构的安全增益能力。最后,通过对原型系统进行测试验证了CMD对分布式存储系统安全性上的提升,评估了其性能开销影响。2.针对拟态化架构中的元数据服务DHR结构的调度机制,提出了一种基于滑动窗口的调度序列控制方法。首先,我们对DHR结构的反馈调度过程进行建模描述和问题分析,并给出了对应的威胁模型和关注的评价指标。然后,将计算机网络中的滑动窗口机制引入到调度序列控制中,通过设置时间和异常频次的驱动事件,触发窗口进行“滑动”动作,即更新调度控制参数,从而通过不断的调整适应,来协调应对动态变化的内部运行状态和外部攻击环境。最后,通过设置不同的实验场景条件,评估调度序列控制研究的必要性,本文方法的有效性,及其与现有方法的性能对比。结果显示,本文方法能够有效解决CMD调度序列控制中面临的一系列问题,在面对复杂多变的内外部情况时通过自适应调整为DHR结构提供了较好的安全性,运转效率以及鲁棒性。3.针对拟态化架构中的元数据服务DHR结构的裁决机制,分析了基于历史表现的置信度计算方法存在的置信度偏移和欺骗问题,提出了一种置信度计算的修正方法,用于提升裁决机制的可信度。首先,文章关注到基于历史表现的拟态裁决机制中,基于单调统计的置信度评价方式存在的不合理性,通过两个简单的案例描述分析了置信度偏移现象及其恶意利用的置信度欺骗攻击。然后,提出了一种基于Logistic函数的置信度修正方法,该方法考虑外部攻击在时间维度上影响力变化,对不同历史阶段的裁决结果进行分级处理,并且针对“过热”的异常输出类型进行噪声过滤,提升置信度计算过程的合理性。实验评估表明,该方法能够有效缓解置信度偏移及基于其的置信度欺骗所造成的危害,提升了拟态裁决机制的可信性。4.针对分布式存储系统拟态化架构中的数据防护问题,研究了基于异构存储集群的数据副本放置方法。首先,对安全威胁模型与HDFS系统模型进行了描述,从安全性和业务性能两个方面定义了副本放置方法的评价指标。然后,构建了HDFS副本放置问题的规划模型,并提出了一种主目标贪心的随机搜索算法以降低求解的复杂度。该方法通过对节点漏洞与性能上的差异进行量化评分,筛选出目标搜索集合,然后根据实际需求将副本放置在利于存活的节点上,从而提升数据的完整性与可用性。实验结果表明,该方法能够有效降低攻击发生时的数据损坏率,在外部攻击能力提升或集群异构性有限的情况下仍保持较高的安全收益,在面向并行处理任务时具有较高的处理性能。