论文部分内容阅读
近年来,随着多媒体技术的发展和数字成像设备的普及,图像作为一种表达形式简洁直观、内容信息丰富多样的信息载体在信息传递中占据着越来越重要的位置。与此同时,目前的图像规模呈现出爆炸式增长的态势,大规模的图像数据在满足人们娱乐需求和促进社会发展的同时也使图像的分析和管理成为了无法忽视和亟待解决的问题。图像场景语义分割是一种根据图像的视觉内容将图像中的每一个像素点归类为其所属对象的语义类别的技术。作为图像分析和理解的基础,它已成为计算机视觉和模式识别领域中的研究热点,具有重要的研究价值和广阔的应用前景。本文针对基于深度学习的场景语义分割中的三个关键问题,即深度卷积神经网络结构、图像尺度和目标边缘界定,展开了深入的研究,主要取得了如下的研究成果: 1.提出了一种调整网络结构的方法,探索网络深度对分割准确度的影响 为了提高场景语义分割的准确度,本文对深度卷积神经网络的结构进行了分析研究,提出了一种调整网络结构的方法。这种方法通过将卷积神经网络的卷积层和池化层作为整体进行增减来探索网络深度对语义分割准确度的影响。实验表明适度增加网络深度能够提升分割性能。 2.分析了一种多尺度网络的方法,探索图像尺度对分割准确度的影响 为了充分利用图像中对象的上下文语义信息,本文分析了一种多尺度网络的方法,研究了图像尺度对于分割准确度的影响。该方法依次增加输入图像的不同尺度,然后将不同尺度得到的特征映射图综合起来进行分割。实验表明,适度增加图像尺度的种类能够提升分割性能。 3.提出了一种融合深度学习和超像素投票的场景语义分割方法,并研发了相应的场景语义分割系统 为了对图像中的目标边界进行捕捉来进一步指导分割,本文提出了一种融合深度学习和超像素投票的场景语义分割方法。该方法基于超像素分割,对深度卷积神经网络的预测结果在超像素块内投票来进行融合。在场景语义分割公开数据集MSRC-21上的实验结果表明了该方法大幅提高了场景语义分割的准确度。与传统的超像素识别模型NFO及条件随机场模型CSA相比,本文提出的方法在所有类别平均分割准确度上分别提高了67.5%和21.8%。在上述研究的基础上,本文实现了一个融合深度学习和超像素投票的场景语义分割系统。