论文部分内容阅读
高清摄像摄影设备的推广和普及,极大地提高了人们捕获和记录生活中重要场景的能力,也为计算机视觉学科的发展提供了坚实的数据基础。得益于高质量的数据源和高性能的计算设备,目标检测近年来利用神经网络得到了很大的发展。目标检测通过对摄相机捕获的图片进行特征提取,计算出能辅助区分/辨识各个目标的特征,再将分类器和定位器作用在这些特征上以得到目标的位置和类别信息。在风头正盛的智能监控、智能驾驶和智能家居领域,目标检测都扮演着非常重要的角色。然而目前许多热门检测模型如RCNN系列、SSD和YOLO系列等均面临着检测效率和检测效果不可得兼的难题,然而这两者在实际生活中都不可或缺。因此,我们需要探索在满足实时性需求的前提下拥有更佳检测效果的检测模型。具体地,本文进行的主要工作如下:1.以模型时间复杂度和检测效果为关注点,分析各个目标检测模型的优缺点及其根源所在。不同模型出于效率和准确度的考虑,在模型网络结构、检测流程、数据增强和损失函数设计上都煞费苦心。本文通过总结RCNN、SSD和YOLO等模型在各个关键环节的方案选择和相应的效果,希望为该领域的新人了解、改进或设计一个目标检测模型提供良好的指导方向。2.以密集型连接为主体结构设计了目标检测模型的特征提取网络,挑选或调整其他模型的优势成分构建自己的目标检测模型DCOD。本文着眼于检测速度快的一阶段检测模型,通过加深特征提取网络来加强模型表达能力,提升检测的准确性。同时,引入的密集型连接又避免了加深网络导致的计算量飙升,使模型保有较高的检测速度。最后,本文还微调了已有的损失函数使得模型的训练过程更为稳定。DCOD在PASCAL VOC2007+2012数据集上取得了 74.8%的平均准确率(mAP)和53.7帧每秒(FPS)的检测速度,已经能跟做了更多优化(如小物体检测优化)的其他热门模型相媲美。3.针对小物体难以检测的问题,探索了以单特征融合方式加强小物体检测的方案,提出一种新颖的特征融合方式。浅层特征包含更多细节信息,YOLOv2模型利用耗时的重定形操作将浅层的尺寸较大特征变换为能用于预测的较小尺寸,但该方式存在割裂相邻图块语意联系的缺陷。本文用基本的池化操作来代替原本的重定形操作,简化了该过程并消除了语意缺陷。DCOD经过该优化取得了75.6%的平均准确率和52.7帧每秒的检测速度,在实时模型在做到了准确性最高。