论文部分内容阅读
基于计算机视觉的手势识别一直是人机交互的热门研究方向。一方面,传统的手势识别方法十分依赖人工设计特征,精度低、鲁棒性差;另一方面,成熟的手势识别产品依赖于Kinect和Leap Motion等专用设备,价格昂贵。近年来,深度学习在计算机视觉领域大放异彩,为基于视觉的手势识别研究提供了新的方向。本文主要研究以单目摄像头作为采集设备、以深度卷积神经网络作为技术基础的手势识别。本文的主要工作包括以下几个方面:(1)为了解决传统手势图像识别算法精度低的问题,本文设计了一种基于肤色检测和卷积神经网络的手势图像识别算法。首先,采用由YCrCb颜色空间转换和OTSU结合的肤色检测算法对手势图像进行手势分割;然后将经过手势分割后的手势图像尺寸统一调整成28×28;最后输入给优化过的LeNet-5模型进行手势识别。对于自定义的9种手势,能够达到99.61%的识别率。(2)传统手势检测算法存在计算量大、检测速度慢的缺点,为了实现快速且准确的室内手势检测,本文设计了一种基于SSD框架改进的室内实时手势图像识别算法。首先,为了加快模型的检测速度,将SSD的基本特征提取网络由VGG16替换为MobileNet;其次,为了提高模型的检测精度,做了如下修改:一是增加MobileNet在低层特征层上的卷积层层数以扩大其感受野,二是在SSD框架上通过添加特征融合操作将高层特征信息与低层特征信息融合起来,弥补低层特征层语义信息不足的问题。最后的实验结果表明,提出的模型无论是在检测速度FPS还是在检测精度mAP上都能够满足室内实时手势检测要求。(3)针对基于深度学习的手势识别模型参数量大、无法部署在移动端使用的问题,本文设计了一种在MobileNet模型上改进的轻量级手势图像识别模型GrNet(Gesture recognition network)。首先,给所有的3×3深度卷积加上L2正则化约束,防止模型过拟合;其次,为了进一步压缩模型的计算量和参数量,将所有的逐点卷积替换为逐点分组卷积并加上通道混洗操作。最后的实验结果表明:在相同的硬件平台环境下,与其它轻量级卷积神经网络相比,Gr-Net能够在不损失精度的前提下对MobileNet进行有效压缩,预测速度比最快的MobileNet-V1提升约13.39%,模型实际大小仅为35.4M,可部署在移动端使用。