论文部分内容阅读
图像分割技术在计算机视觉任务中一直扮演着重要的角色,被广泛应用于自动驾驶、医疗影像处理、自动翻译等领域。尽管语义分割技术相对传统方法得到了很大的改善,但是在处理一些小目标或者是一些模糊的物体时仍然存在分类精度较低的问题,另外在深度学习模型的构造和训练过程中会用到一些池化和空洞卷积处理来获取大的感受野,进而准确定位目标特征。但是在运算过程中会存在像素损失问题,从而影响最终的分割精度,并且在上采样还原像素中不能够进行高效的像素还原,会产生分割结果边界模糊等问题。另外语义分割是一个需要实时处理的任务,因此如何兼顾精度和速度成为语义分割的重要任务。综上所述,本文提出主要研究内容如下:1)在U型结构的基础上提出一种门控多层融合的实时语义分割模型。该模型采用一种带有门控的横向U型连接,该结构利用注意力机制可以针对性筛选的优势,在横向平行层的语义信息传递过程中,加重对目标像素的注意来获取更多的目标像素信息,过滤其他无用的特征内容,也称为过滤背景信息,此种结构的优势在于提取更重要的目标像素,为上采样平行层提供更多的目标特征,从而提高上采样对目标特征的还原,最终获得良好的分割结果。另外,在上采样过程中通过多层融合,来实现不同层语义信息的优势互补,从而提高像素多样性,使像素还原更精确。在添加更多结构提升精度的同时简化下采样结构,并且利用1×1卷积的优势进行多处降维处理,减少模型的运行参数,进而使模型能够保证良好的实时效果。2)改进了门控多层融合语义分割模型。将横向连接的门控结构改为双通道门控结构,用两个门控结构分别根据不同层次的语义不同来获取更全面的目标特征,增强横向连接的传递性能。另外将上采样结构改为双通道上采样结构,利用不同结构的提取方式差异来获取不同的上采样特征图,使上采样特征图包含更全面的语义信息,再将获得的特征图进行融合,使得最终获取的上采样特征图更加准确,提高输出的精确度。文中提出的模型结构在解决计算机视觉任务方面做出重要贡献,同时为后续的目标检测,目标跟踪等打下基础。最终提出模型在CamVid数据集上测试,输入大小为512×1024时mIOU达到74.1%,37帧/s。