论文部分内容阅读
在深度卷积神经网络(Convolutional Neural Networks,CNNs)中,池化是一个关键机制,有利于CNNs获得具有平移不变性的特征。大量的经验和理论研究表明,池化能够有效的提升CNNs的性能。传统的池化操作一般是基于激活值的。本文提出一种基于序的池化机制。提出这种池化方法的动机是,在池化域内,激活值的序只与激活值的大小关系有关,而与其实际大小无关。基于激活值的序计算池化输出有利于获得更加鲁棒的特征。此外,通过合理的使用激活值的序能够有效地避免基于值的方法所面临的数据尺度问题。基于序的池化方法可以视为一种加权池化,也就是将池化域内所有激活值的加权和作为池化输出。根据加权方式的不同,本文提出三种新的池化操作:基于序的平均池化、基于序的加权池化和基于序的随机池化。作为另外一个重要贡献,本文引入判别熵的概念,提出一种评估池化方法判别能力的准则。在图像识别和人群计数两个计算机视觉任务上评价提出的方法。在图像识别任务上,四个标准数据集(MNIST、CIFAR-10、CIFAR-100和NORB)上的实验结果表明,提出的基于序的池化方法相比于已有方法有更好的识别表现。为了进一步展示提出方法的优越性,将基于序的随机池化方法与NIN(Network-inNetwork)网络结合,在CIFAR-10和CIFAR-100数据集上获得了更加优异的识别效果。在人群计数任务上,针对摄像机透视效果、图像背景、人群密度分布不均匀和行人遮挡等问题,提出一种基于序的空间金字塔池化网络的人群计数方法。该方法将原图像分成多个具有相同透视范围的子区域并在各个子区域分别取不同尺度的子图像块,采用基于序的空间金字塔池化网络估计子图像块人数,然后相加所有子图像块人数得出原图像人数。提出的图像分块方法有效地消除了摄像机透视效果和人群密度分布不均匀对计数的影响。提出的基于序的空间金字塔池化不仅能够处理多种尺度的子图像块,而且解决了传统池化方法易损失大量重要信息和易过拟合的问题。在UCSD标准数据集上的实验结果表明,本文方法相比于传统方法具有准确率高和鲁棒性好的优点。