基于门控多层融合的实时语义分割算法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:wuhanchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分割技术在计算机视觉任务中一直扮演着重要的角色,被广泛应用于自动驾驶、医疗影像处理、自动翻译等领域。尽管语义分割技术相对传统方法得到了很大的改善,但是在处理一些小目标或者是一些模糊的物体时仍然存在分类精度较低的问题,另外在深度学习模型的构造和训练过程中会用到一些池化和空洞卷积处理来获取大的感受野,进而准确定位目标特征。但是在运算过程中会存在像素损失问题,从而影响最终的分割精度,并且在上采样还原像素中不能够进行高效的像素还原,会产生分割结果边界模糊等问题。另外语义分割是一个需要实时处理的任务,因此如何兼顾精度和速度成为语义分割的重要任务。综上所述,本文提出主要研究内容如下:1)在U型结构的基础上提出一种门控多层融合的实时语义分割模型。该模型采用一种带有门控的横向U型连接,该结构利用注意力机制可以针对性筛选的优势,在横向平行层的语义信息传递过程中,加重对目标像素的注意来获取更多的目标像素信息,过滤其他无用的特征内容,也称为过滤背景信息,此种结构的优势在于提取更重要的目标像素,为上采样平行层提供更多的目标特征,从而提高上采样对目标特征的还原,最终获得良好的分割结果。另外,在上采样过程中通过多层融合,来实现不同层语义信息的优势互补,从而提高像素多样性,使像素还原更精确。在添加更多结构提升精度的同时简化下采样结构,并且利用1×1卷积的优势进行多处降维处理,减少模型的运行参数,进而使模型能够保证良好的实时效果。2)改进了门控多层融合语义分割模型。将横向连接的门控结构改为双通道门控结构,用两个门控结构分别根据不同层次的语义不同来获取更全面的目标特征,增强横向连接的传递性能。另外将上采样结构改为双通道上采样结构,利用不同结构的提取方式差异来获取不同的上采样特征图,使上采样特征图包含更全面的语义信息,再将获得的特征图进行融合,使得最终获取的上采样特征图更加准确,提高输出的精确度。文中提出的模型结构在解决计算机视觉任务方面做出重要贡献,同时为后续的目标检测,目标跟踪等打下基础。最终提出模型在CamVid数据集上测试,输入大小为512×1024时mIOU达到74.1%,37帧/s。
其他文献
短波信道是一种不稳定且具有时变性的变参数信道,主要由电离层的时变特性所决定,存在着多径干扰、频率选择性衰落、时间选择性衰落、多普勒效应等复杂信道因素,因此短波通信
近年来随着机器学习与人工智能的迅猛发展,知识发现与智能计算已渗透到现代社会的各个领域。但日益增长的具有不确定、不完备性的复杂数据为人们解决数据分析处理和挖掘决策
原子转移自由基聚合(ATRP)作为一项可控/活性的自由基聚合技术,由于聚合过程不经历链终止和/或链转移,因此常采用ATRP方法制备具有可控分子量的线性聚合物链/刷,从而使分子量
微波光子混频技术利用光子学方法对信号进行变频处理,系统体积小、重量轻、抗电磁干扰能力突出,为传统电学器件的“电子瓶颈”问题开辟出新的解决方案。目前的通信系统要求收
体绘制技术是一种可以较为全面展示信息的可视化方法,被广泛用于科学计算领域展示数据内容。然而,目前体绘制技术中设计传输函数这一过程还存在不直观、繁琐的问题,设计效率
放疗中使用影像引导放疗(Image-guided Radiotherapy,IGRT)可在一定程度上提高放疗质量,但是现有的影像引导技术都存在着一定的缺陷,或增加患者X光的受照剂量,或无法直接、实
随着大数据技术的蓬勃发展,面向语义分析、图像识别和基因选择的应用得到广泛普及,这些领域的数据呈现出高维小样本特点,即特征空间高维度,而样本数量过少。高维小样本数据存
公司治理是现代公司理论中的关键因素,股权结构即公司治理的基础,论文从股权结构问题中股权制衡角度来研究方大锦化化工科技股份有限公司的公司治理效率。方大化工公司1997年
人类行为识别(Human Activity Recognization,HAR)的目标是识别现实生活中常见人类活动,其研究始于20世纪80年代主要应用于医疗、保健领域。行人交通行为识别是HAR的一种,需
视频流量是网络流量的重要组成部分。视频流量含有丰富的信息,这使得视频流量的检测与识别具有非常重要的应用意义,如何有效的检测视频流并分析其内容已成为一个亟待解决的问