论文部分内容阅读
语义分割旨在为图像中的每个像素分配一个预定义的语义类标签,使计算机能够通过视觉的方式对场景进行细粒度地理解。该技术被广泛应用于自动驾驶、城市规划、智能家居等任务中,是计算机视觉领域的重要分支。近年来,基于深度卷积神经网络的分割技术将任务性能提升到了一个新的水平。然而,现有的深度学习方法需要大量的像素级人工标注图像作为训练数据,使得这些方法所需的时间和金钱成本十分昂贵。为了减轻手工标注数据带来的沉重负担,一种方法是使用虚拟数据进行训练,例如计算机模拟图像,进而获得几乎无限数量的自动标注数据。由于不同领域之间的数据分布不同,用虚拟图像训练出的深度模型并不能很好地泛化到现实场景。针对这一难题,本文对语义分割中的领域自适应问题展开了研究,提出了一系列的创新性解决方案,并通过实验验证了方案的正确性和有效性。论文的主要工作和贡献包括以下几个方面。
为了更好地利用像素上下文信息提升分割精度,提出了基于宏观-微观对抗学习的语义分割方法。目前主流的语义分割方法所使用的损失函数是针对每一个像素的多分类交叉熵,该损失函数只考虑对每一个像素的分类而忽略了像素间的上下文信息,容易在图像细节和全局层面造成分割错误。针对该问题,所提出的方法使用两个不同的判别器对分割网络的不同层次进行监督,引导分割网络在推导中同时考虑像素局部上下文和全局上下文信息,分别提升了分割结果的局部语义一致性和全局语义一致性,使模型输出接近于真实标签的分割结果。在多个人像分割测试集上,该方法显著改善了分割结果,达到了最先进的分割精度。
为了减少领域自适应分割网络在训练过程中负迁移现象的产生,提出了基于语义级别对抗学习的领域自适应分割方法。传统基于对抗学习的领域自适应方法仅能将源域和目标域的特征进行边缘分布对齐,而忽略了相同语义特征的联合分布对齐,容易在训练过程中造成负迁移。针对该问题,所提出的方法结合了协同训练和对抗学习两者的思想,采用两个正交分类器对特征进行语义级别对齐,增强了源域和目标域分割结果的语义一致性,极大的减少了领域自适应过程中负迁移现象的产生,提升了模型在目标域中的泛化性能。
针对语义分割问题深层特征过于复杂导致域间分布对齐困难的问题,设计了基于显著性感知信息瓶颈的领域自适应分割方法。在语义分割任务中,神经网络的深层特征需要编码图像的空间结构、物体形状、颜色纹理等多种信息。直接通过对抗学习的方法在复杂的深层特征上进行分布对齐效果不佳。针对这一问题,所提出的方法利用信息瓶颈对深层特征进行压缩,去除特征中与分割任务无关的干扰信息,并基于特征显著性保留重要的任务相关信息,从而降低了源域和目标域之间特征对齐的错误率,并提高对抗训练的稳定性。在多个测试集上,该方法达到了当前最先进的跨领域分割精度。
针对目标域数据稀缺的困难场景,提出了基于单目标域样本领域自适应分割方法。相较于可利用大量目标域的无标注图像进行训练的情况,现实中可能面临更苛刻的实验条件,比如由于隐私限制和数据采集困难,只能获取很少量甚至单张无标签目标域的图像。提出的算法首次结合了对抗学习和风格迁移的思路,围绕仅有的目标域样本,以端到端的方式高效地搜索潜在的目标域风格。生成的风格化图片能够直接被用于训练,显式地加强模型在目标域的泛化能力。与其他领域自适应方法相比,此方法在目标域样本稀缺的情景下具有最优的性能。
跨领域图像分割是一个具有挑战性的新兴课题,在大数据时代具有很强的实用价值。然而,与传统的全监督语义分割技术相比,跨领域图像分割在分割精度和分割速度上都还有较大差距。本文仅研究了其中一部分问题,后续的研究工作将会深入到神经网络原理本身,从可解释性的角度找寻模型在跨领域情况下性能下降的本质原因,从而在根本上解决领域自适应问题。
为了更好地利用像素上下文信息提升分割精度,提出了基于宏观-微观对抗学习的语义分割方法。目前主流的语义分割方法所使用的损失函数是针对每一个像素的多分类交叉熵,该损失函数只考虑对每一个像素的分类而忽略了像素间的上下文信息,容易在图像细节和全局层面造成分割错误。针对该问题,所提出的方法使用两个不同的判别器对分割网络的不同层次进行监督,引导分割网络在推导中同时考虑像素局部上下文和全局上下文信息,分别提升了分割结果的局部语义一致性和全局语义一致性,使模型输出接近于真实标签的分割结果。在多个人像分割测试集上,该方法显著改善了分割结果,达到了最先进的分割精度。
为了减少领域自适应分割网络在训练过程中负迁移现象的产生,提出了基于语义级别对抗学习的领域自适应分割方法。传统基于对抗学习的领域自适应方法仅能将源域和目标域的特征进行边缘分布对齐,而忽略了相同语义特征的联合分布对齐,容易在训练过程中造成负迁移。针对该问题,所提出的方法结合了协同训练和对抗学习两者的思想,采用两个正交分类器对特征进行语义级别对齐,增强了源域和目标域分割结果的语义一致性,极大的减少了领域自适应过程中负迁移现象的产生,提升了模型在目标域中的泛化性能。
针对语义分割问题深层特征过于复杂导致域间分布对齐困难的问题,设计了基于显著性感知信息瓶颈的领域自适应分割方法。在语义分割任务中,神经网络的深层特征需要编码图像的空间结构、物体形状、颜色纹理等多种信息。直接通过对抗学习的方法在复杂的深层特征上进行分布对齐效果不佳。针对这一问题,所提出的方法利用信息瓶颈对深层特征进行压缩,去除特征中与分割任务无关的干扰信息,并基于特征显著性保留重要的任务相关信息,从而降低了源域和目标域之间特征对齐的错误率,并提高对抗训练的稳定性。在多个测试集上,该方法达到了当前最先进的跨领域分割精度。
针对目标域数据稀缺的困难场景,提出了基于单目标域样本领域自适应分割方法。相较于可利用大量目标域的无标注图像进行训练的情况,现实中可能面临更苛刻的实验条件,比如由于隐私限制和数据采集困难,只能获取很少量甚至单张无标签目标域的图像。提出的算法首次结合了对抗学习和风格迁移的思路,围绕仅有的目标域样本,以端到端的方式高效地搜索潜在的目标域风格。生成的风格化图片能够直接被用于训练,显式地加强模型在目标域的泛化能力。与其他领域自适应方法相比,此方法在目标域样本稀缺的情景下具有最优的性能。
跨领域图像分割是一个具有挑战性的新兴课题,在大数据时代具有很强的实用价值。然而,与传统的全监督语义分割技术相比,跨领域图像分割在分割精度和分割速度上都还有较大差距。本文仅研究了其中一部分问题,后续的研究工作将会深入到神经网络原理本身,从可解释性的角度找寻模型在跨领域情况下性能下降的本质原因,从而在根本上解决领域自适应问题。