基于深度学习的场景语义分割研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ya0000000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术的发展和数字成像设备的普及,图像作为一种表达形式简洁直观、内容信息丰富多样的信息载体在信息传递中占据着越来越重要的位置。与此同时,目前的图像规模呈现出爆炸式增长的态势,大规模的图像数据在满足人们娱乐需求和促进社会发展的同时也使图像的分析和管理成为了无法忽视和亟待解决的问题。图像场景语义分割是一种根据图像的视觉内容将图像中的每一个像素点归类为其所属对象的语义类别的技术。作为图像分析和理解的基础,它已成为计算机视觉和模式识别领域中的研究热点,具有重要的研究价值和广阔的应用前景。本文针对基于深度学习的场景语义分割中的三个关键问题,即深度卷积神经网络结构、图像尺度和目标边缘界定,展开了深入的研究,主要取得了如下的研究成果:  1.提出了一种调整网络结构的方法,探索网络深度对分割准确度的影响  为了提高场景语义分割的准确度,本文对深度卷积神经网络的结构进行了分析研究,提出了一种调整网络结构的方法。这种方法通过将卷积神经网络的卷积层和池化层作为整体进行增减来探索网络深度对语义分割准确度的影响。实验表明适度增加网络深度能够提升分割性能。  2.分析了一种多尺度网络的方法,探索图像尺度对分割准确度的影响  为了充分利用图像中对象的上下文语义信息,本文分析了一种多尺度网络的方法,研究了图像尺度对于分割准确度的影响。该方法依次增加输入图像的不同尺度,然后将不同尺度得到的特征映射图综合起来进行分割。实验表明,适度增加图像尺度的种类能够提升分割性能。  3.提出了一种融合深度学习和超像素投票的场景语义分割方法,并研发了相应的场景语义分割系统  为了对图像中的目标边界进行捕捉来进一步指导分割,本文提出了一种融合深度学习和超像素投票的场景语义分割方法。该方法基于超像素分割,对深度卷积神经网络的预测结果在超像素块内投票来进行融合。在场景语义分割公开数据集MSRC-21上的实验结果表明了该方法大幅提高了场景语义分割的准确度。与传统的超像素识别模型NFO及条件随机场模型CSA相比,本文提出的方法在所有类别平均分割准确度上分别提高了67.5%和21.8%。在上述研究的基础上,本文实现了一个融合深度学习和超像素投票的场景语义分割系统。
其他文献
基于拉曼散射的分布式光纤温度传感器自70年代诞生以来,以其优越的性能及巨大的应用领域而成为传感测量领域的研究热点。在需要进行大范围温度监测的应用场合,传统的电式传感
随着计算机科学和网络技术的发展,社会网络分析在数据挖掘领域逐渐成为主流方向。当前的社会网络分析主要基于同质信息网络,即关系网络中结点或边具有相同的类型。然而,随着
虚拟水电仿真系统中要实现大规模的可视化场景,最关键的步骤在于三维模型制作,即几何建模。对已经存在的仿真对象,可以采样物体点集,通过表面重建技术来构造逼真的虚拟环境。由三
当前,信息技术飞速发展,整个星球上的众多数量的人们可以以人类历史上前所未有的先进方式一起学习、工作了。于是,对个体智慧协作形成集体智慧的工作形式得到了越来越多的重视。
该文建立了一套反射式中间件原理框架,提出了一种基于软件体系结构的中间件反射方法,并实现了一个反射式J2EE(Java 2 Platform Enterprise Edition)应用服务器原型.在反射式
哼唱检索方式是一种方便、新颖、人性化的音乐检索方式,有着广泛的应用前景和重要研究价值。它使得用户在忘记歌词、歌名和作者的情况下,只要哼出旋律就可以找到想要的歌曲。
控制关系分析(Dominant Relationship)成为数据库领域研究人员关注的一个热点问题。控制关系分析在很多的领域,比如Skyline计算,Rank-Aware查询的处理以及市场分析中都有非常广
随着网络经济的飞速发展,Web应用软件的规模不断扩大,使得Web站点流量的迅速增长,其复杂性也逐渐增加,导致一些经常使用的Web站点由于负载过重而变得反应迟缓,甚至系统瘫痪。当站
电子商务推荐系统是电子商务网站用来向顾客提供商品信息和建议,并模拟商店销售人员帮助顾客顺利完成购买过程。随着电子商务的快速发展,越来越多的电子商务网站开通了个性化信
学位