论文部分内容阅读
近年来,随着深度传感器的普及,对于RGB-D图像的研究逐渐成为计算机视觉领域的一个研究热点。其中,主要研究方向有RGB-D图像的物体检测和语义分割。物体检测是找出图像中物体的位置并且识别出物体类别的过程,在智能监控里面具有重要应用。语义分割是识别图像中每一个像素点类别的过程,是无人机导航和自动驾驶中的一项基础性技术。RGB-D图像包括RGB图像和深度图像信息,目前在有关RGB-D图像物体检测和语义分割的研究中,对RGB图像和深度图像的特征都是分开提取的,而且正确率还不够高,速度不够快,难以达到产业界使用要求。因此,本文对RGB-D图像物体检测和语义分割进行深入研究,具体工作如下:第一,为了能够同时提取RGB图像和深度图像特征,而不是分开提取,本文提出一种将RGB图像和深度图像融合的方案,并将融合后的图像称为HHG图像,该图像能够同时表达RGB图像和深度图像的视觉内容,在执行物体检测任务和语义分割任务时速度也会得到提升。第二,为了提高RGB-D图像物体检测的精确度和速度,本文提出一种借鉴Faster-RCNN思想完成RGB-D图像物体检测的方案。该方案首先将Faster-RCNN的网络结构修正并调整网络参数,然后利用HHG图像重新训练Faster-RCNN网络模型,最后使用该模型完成RGB-D图像的物体检测任务。在检测过程中,提出一种保留候选边框的方案,本文将该方案称为NMS’。NMS’是对传统的非极大值抑制的一种改进方案,它改变候选边框取舍决策机制,将候选边框之间的重叠率和候选边框周围的边框数量作为边框取舍的依据。第三,为了提高RGB-D图像语义分割性能,本文提出一种借鉴FCN思想完成RGB-D图像语义分割的方案。该方案首先将FCN的网络结构进行修正并调整参数,然后利用HHG图像重新训练FCN网络模型,最后使用该模型完成RGB-D图像的语义分割任务。通过与前人实验结果进行比较发现:采用本文RGB-D图像物体检测方案完成的检测正确率比前人最好的检测正确率提高了9.7%,检测速度快了100倍以上;采用本文RGB-D图像语义分割方案完成的分割正确率比前人最好的分割正确率提高了2.3%;相较于不使用NMS’的物体检测方案,使用NMS’方案的正确率有所提高。