论文部分内容阅读
人工智能深度学习快速发展,尤其是在以图像为代表的计算机视觉、自动驾驶和以语音、文本为代表的自然语音识别等领域,深度学习取得了巨大的成功,逐步应用于生产生活的各个方面。然而,神经网络容易受到微弱扰动的攻击,导致网络以较高的置信度得到错误结果。扰动后的样本在视觉上与原始样本相似,被称“对抗样本”。这种漏洞,使得在高精、高安全要求的场景应用中,深度网络模型的落地部署困难。近些年来,关于对抗样本的研究主要针对攻击和防御两大方面,学者们提出了许多经典的攻击方法和防御方法,协同促进了网络鲁棒性的提高。此外,对于对抗样本的理解也是多种多样,有人认为对抗样本如信号处理里面的随机噪声,也有人认为对抗样本是神经网络固有缺陷(如高维和不平滑边界)或标签噪声引起的结果。近期甚至有人认为对抗样本是“特征(Features)”而不是“错误(Bugs)”。本文从此出发,探索了不同因素导致的对抗样本,主要成果及创新点如下:1.针对神经网络训练泛化过程中存在的问题,提出了一种对抗样本的分类方法,并通过一系列实验证明了不同类型对抗样本的存在性。该分类法将对抗样本分为:(1)由非鲁棒特征(Non-Robust Feature)引起的对抗样本;(2)由数据中的异常值(Outliers)或噪声标签(Noisy Labels)引起的对抗样本;(3)由优化问题或分类器不平滑(Optimization Issues or Non-smooth Classifiers)导致的对抗样本。其中Type-1类对抗样本即Ilyas等人提出的具有泛化能力的对抗扰动—非鲁棒特征。实验结果表明模型和优化过程的不同设置都可能导致不同类型的对抗样本,使用不同模型训练过程生成的对抗样本可以表现出截然不同的行为。同时不同类别的对抗样本并非严格独立,某些实验设置或应用场景的更改会使得对抗样本之间相互转化。2.上述分类法中的Type-2型对抗样本主要由广泛存在的异常样本导致,我们探讨了这部分异常样本与对抗样本的关系并分析了其如何导致对抗样本。文中,我们先后采用了不同的方法对数据集进行异常样本检测,并展示了部分极端样本示例,还计算了不同检测值样本所对应的成功扰动幅度,进一步证实异常值越高的样本,所需的攻击幅度越小,即:越容易被攻击成功。我们还观测了不同样本的注意力特征映射图,结果表明异常样本导致的对抗样本会使特征注意力中心发生不可逆转的弥散现象。此外,我们还初步分析了异常样本导致Type-2型对抗样本的几个直观因素,含图像边缘轮廓、样本的几何变换、属性、噪声标签、高维空间上的数据分布等。3.分类法中的Type-3型对抗样本主要由于不平滑的边界(或训练过程中的优化问题)导致,我们描述并验证了多种边界策略对对抗样本的作用。首先,我们使用了余量损失函数训练更鲁棒的分类器,与标准的交叉熵损失对比,这种训练的方法可以减少非鲁棒特征,同时增强了网络防御能力。接着,在余量策略的基础上我们结合Yaoqing Yang等人的“边界厚度”概念,加强了边界的描述方式(置信度在样本空间的过渡情况)。研究表明,一系列正则化方法会加“厚”边界,减少对非鲁棒特征的依赖并提高鲁棒性。最后,我们对比多种方法的空间特征聚类效果,给出了边界问题如何导致对抗样本的一种解释及边界策略如何提升模型性能的指导方向。本文从深度学习的多个角度对对抗样本进行了一定的解释和实验证明,结果证实了对抗样本来源因素的多样性。然而本文的研究只是对抗样本理论解释的一个初步工作,大量的工作着落点相对浅显,需要进一步研究,以提升神经模型的鲁棒性,致力于推动人工智能真正的落地应用。