基于双目视觉和深度信息的场景分类与检测技术研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:delphi_quaker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为图像数据中重要的信息之一,场景图像的分析是目前计算机视觉领域的研究热点。场景图像的分析主要包括了场景分类和场景检测任务,例如让机器能够像人一样理解场景图像所属于的类别,当前场景图像中所含有的物体,以及这些物体在当前场景中所处的位置。然而,由于现有方法的局限性,场景分类检测任务仍未得到完美的解决。因此,改进现有方法突破瓶颈成为场景分类检测领域中亟需解决的关键问题。
  深度卷积神经网络是一种基于人脑视觉机制提出的仿生算法,借鉴视觉信息在大脑皮层中级联传递的策略,通过多层卷积神经网络的级联对场景图像进行特征提取和识别。大脑中影响视觉信息传递的生物机制很复杂,而深度卷积神经网络仅仅是借鉴了其中很小一部分策略。因此挖掘更多的与大脑视觉机制相关的类脑机制,并结合深度卷积神经网络构建全新有效的模型也是目前该领域的发展趋势。本文基于深度卷积神经网络,结合视觉拥挤、双目视差等多种大脑视觉机制,为场景图像的分类和检测任务提供了新思路。本论文的主要工作如下:
  (1)针对场景分类任务,提出了双通道多尺度卷积神经网络的场景分类方法。针对模拟单侧视野机制的深度卷积神经网络在解决场景分类任务时存在局限性这一问题,本文提出了一种基于双通道网络结构和多尺度特征整合策略的卷积神经网络来对场景图像进行分类。该方法利用双通道网络和多尺度特征整合策略,减少了视觉V1、V4区域中由于视觉拥挤而造成的识别障碍,最后在 MIT Indoor 67 和Scene 15数据集上验证了该网络具有优秀的性能。
  (2)针对场景检测中的深度信息提取任务,提出了图像分割及模糊信息的单幅图像深度信息提取方法。针对现有的基于传统策略的单幅图像深度提取方法具有效率低、耗时长等问题,本文基于现有方法提出了基于图像分割及局部模糊信息的单幅图像的深度提取方法。该方法首先利用特定的模糊核对原始图像进行双模糊处理,并求取模糊图的梯度比,通过梯度比推导求得图像边缘模糊信息,并利用高效图像分割策略得到图像边缘,然后利用提出的共邻域同深度的扩散策略,使得最终求得的深度信息图具有更好的局部一致性。实验证明,该算法在局部深度信息上相对于现有传统方法有提升,降低了局部深度误差率,且在处理单幅图像的时间比现有传统方法要快。
  (3)针对场景检测任务,提出了图像深度信息的分层次场景检测方法。针对复杂场景下目标尺寸不一,难以用固定的策略满足不同尺度的检测任务这一问题,本文提出了基于图像深度信息的分层次场景目标检测算法。通过计算得到不同尺度的先验信息,对不同层次的场景目标进行检测。利用本文提出的目标检测算法,有效地解决了复杂场景下各种不同尺度目标共存的问题。
其他文献
三维目标的配准与识别是计算机视觉与模式识别领域中的研究热点,已广泛应用于遥感测绘、机器人、军事安防、虚拟现实等领域。三维目标配准旨在对齐两个或多个不同视角的目标三维数据,从而完成姿态校正得到具有更大视场范围或完整的目标三维数据;三维目标识别的目的是基于三维目标模型在复杂场景中识别出模型目标并确定目标的位置和朝向。在三维目标配准识别问题中,点云局部特征描述扮演着至关重要的角色,其目的是充分描述三维局
学位
下肢助力外骨骼机器人是一种可穿戴式设备,它的出现使得穿戴者增强在负重行走、托举搬运和边检巡逻的运动技能,其作用主要在穿戴者展现自身运动动作时,无阻碍增强穿戴者的耐力、提高穿戴者的负重能力、保护穿戴者运动肢体,进而,提高穿戴者的工作效率或战斗力。下肢助力外骨骼机器人可以在人体运动的同时有机融合人体的下肢和上身部分,这种可穿戴设备通常由两条拟人化机械腿、相应的支撑连接设备以及配套的软硬件设施等组成。本
随着不同分辨率的移动设备数量的快速增长,如何将视频适配于多样的移动设备成为一项重要的研究课题。视频缩放技术将视频分辨率缩放至目标分辨率或长宽比以适应不同的播放设备。传统的视频缩放方法,例如均匀缩放或裁剪视频内容,通常会造成视频失真或内容损失,从而效果较差。基于内容感知的视频缩放方法,在改变视频分辨率的同时,能够保持视频中关键对象的形状,并协调视频帧之间的时间一致性和空间一致性,从而产生更少的视频伪
相比于传统的PID(Proportional-integral-derivative, PID)控制方法,先进PID控制方法继承PID结构简单、易于实现和适应性强等优点的同时还具备先进控制策略的优良性能,近年来受到了学术界和工业界越来越多的关注。如何针对复杂控制系统设计先进PID控制器获得更优的控制性能具有重要的理论意义和工程应用价值,已成为控制领域的研究热点之一。一方面,进化算法为先进PID控制
学位
随着卷积神经网络(Convolutional Neural Network, CNN)的诞生与发展,图像分类精度得到了前所未有的提升。众所周知的是 CNN的灵感来源于生物学家 Hubel 和 Wiesel 提出的大脑视觉感知层级模型。本文借鉴该思路,希望通过大脑视觉认知机制启发来改进CNN,使得图像分类性能更好。由此展开了对脑机制与CNN结构特征改进的相关研究。  脑神经科学领域研究表明,人类大脑
学位
在计算机科学与认知神经科学的浪潮推动下,算法与深度网络模型在越来越多的任务上接近甚至超越了常人,但仍有很多更大型实际的复杂问题亟待解决。相较于单体,多智能体系统作为具有多个独立执行个体的集群,具有个体结构简单、鲁棒性强、可塑性强等明显优点。其主要通过研究个体间的冲突消解、协调合作、资源抢占等方面,在兼顾个体优化的基础上聚焦如何有效地最大化整体能力。本文就此展开了相关研究,主要对系统内单体的决策优化
神经元是大脑神经系统的基本组成单元,大脑中每个神经元都要接收成千上万个树突信号输入。生物实验发现树突上不同位置的输入到达胞体时的膜电压不同,而一般的神经元模型都忽略了树突的形状,因此在点模型中考虑树突整合效应可以使模拟神经网络更接近真实的神经网络。神经元之间通过突触连接,神经学家们认为大脑的记忆功能是突触连接强度不断变化,即突触可塑性作用的结果,因此对突触可塑性的研究有利于探究生物学习与记忆的奥秘