论文部分内容阅读
图像语义分割是计算机视觉研究的重要内容,在图像理解中起着关键性作用。早期传统的图像分割是通过颜色、纹理、亮度和形状等特征,把图像分成若干具有相同含义的区域。但是,这种分割技术的特征识别度低,在对图像进行分割时,只能提取到低层特征,导致分割性能较差。随着计算机技术的更新换代以及深度学习在计算机视觉的成功应用,图像分割逐渐进入到了可以通过深度网络提取特征的图像语义分割阶段。近年来,深度学习的日益强大极大地促进了图像语义分割技术的发展,以至于国内外的诸多研究学者在基于深度学习的图像语义分割算法上展开了深入研究,并取得优异的成果。然而由于深度学习的局限性以及图像语义分割任务的复杂性,基于深度学习的图像语义分割算法仍存在诸多问题,首先,对于细小的类别,由于其轮廓太小,从而无法精确的定位轮廓,造成目标边缘模糊以及分割不准确的问题;其次,在分割算法的研究中,越来越多的算法使用较深网络来更好地提取特征,但是这对硬件设备有较大的依赖,而且较慢的分割速度限制了算法的应用;再者,现有的算法结构中获取的特征关系都是局部的,没有有效的提取语义上下文信息和充分利用各层级间的特征信息,导致特征表达能力不足。因此,针对上述三个问题,本文主要做了以下三个方面的工作:(1)提出了一种结合边缘检测的语义分割算法。首先,将边缘检测网络和语义分割网络并行组成,边缘检测网络用来提取图像的边缘特征,语义分割网络用来提取初步的语义分割特征;然后,通过特征融合模块将边缘特征和语义分割特征进行融合,得到最终的语义分割结果;最后,对改进算法在数据集上进行实验分析。实验结果表明,该方法较好地解决了语义分割中目标边缘模糊以及分割不准确的问题,有效提升了图像语义分割精度。(2)提出了一种基于空洞可分离卷积模块和注意力机制的实时语义分割算法。首先,将深度可分离卷积和不同空洞率的空洞卷积相结合,设计了用于提取特征的空洞可分离模块,该模块在减少模型计算量的同时,能够更高效的提取特征;其次,在网络的输出端加入了通道注意力模块和空间注意力模块,并和原始特征融合,增强对特征的表达能力;最后,将融合后的特征上采样到原图大小,得到分割结果。通过实验验证,该方法不仅可以减少模型的大小,还可以在保证实时分割的情况下,提升图像语义分割精度。(3)提出了一种基于特征聚合和双向特征融合的语义分割算法。该方法基于编码器和解码器,在编码器阶段,首先,通过Res Net101骨干网络进行特征提取,采用空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)获取多尺度上下文信息;然后,将多尺度上下文信息和骨干网络得到的特征进行融合;最后,将融合后的特征进行特征加权,对不同尺度信息的相对重要性进行建模和选择,以此对特征进行有效聚合。在解码器阶段,采用双向特征融合的方式来融合高层特征和底层特征,首先,对底层特征进行下采样操作,再和编码器输出的高层特征进行融合;然后,将融合后的特征进行上采样操作,再和底层特征进行融合;最后将特征上采样输出,得到分割结果。实验结果表明,该方法可以有效提升图像语义分割精度。