基于机器视觉与CNN的目标识别与定位

论文部分内容阅读

目标识别与定位作为视觉领域的一个重要分支，在工业生产中有着不可或缺的地位，是工业自动化水平的重要衡量标准。论文基于机器视觉以及新兴的CNN（卷积神经网络），目的是通过标定与深度学习，与原有的视觉系统相结合，可以识别目标类别信息的同时，获取目标物体二维位置信息，并将得到的二维信息转化为三维信息，从而实现工业场景下的目标识别与定位。　　论文首先研究了相机标定算法，由于检测精度高以及性能稳定的优点，选择了棋盘格作为靶标实现相机标定，设计了专门的靶标识别算法，使用稳定的张正友相机标定法对双目视觉的两个相机分别进行单目标定。最后利用特征点匹配过程中的极线约束原则对左右相机的图片进行特征点匹配，实现双目相机的标定。　　接着针对目标检测算法，对卷积神经网络的所需要用到的基础理论进行了阐述。其中由于SSD(Single Shot MultiBox Detector)区别于其他深度学习算法，在保证高准确度的情况下，可以比较快地检测目标物体，让它在目标检测领域脱颖而出。　　然而SSD网络结构对硬件要求的苛刻性以及前期训练时间的漫长，让一些小型实时系统望而却步。为此我们深度剖析了其基础网络VGG16以及区别于VGG16的SSD检测器。本文保留了SSD检测器，将深度分离卷积代替传统卷积，并引入BN以及残差网络结构修改VGG16网络结构，加深了原本的网络深度，提高了网络结构的泛化能力。并将修改的网络与原本的SSD在PASCAL VOC数据上进行了训练以及测试，证实修改的网络在保证准确度的前提下，加快了网络的训练以及测试速度，减少了对硬件的依赖性。　　最后用修改好的SSD网络训练自己的数据集，结合双目标定得到目标物体的三维信息，取得了比较好的效果。　　综上所述，针对工业场景下的目标识别与定位，本文所提及的算法有明显的效果改善，具有一定的研究意义以及后期应用前景。

其他学术论文