论文部分内容阅读
近年来,监控摄像头数量快速增长,在医院、学校、车站和机场等许多场所得到了广泛的部署,在保障公共安全的同时,也带来了海量的数据处理需求。传统的人工处理方式已无法满足需求,智能视频监控系统应运而生。行人重识别是智能视频监控系统中非常重要的组成部分,其目标是从候选集合中检索出特定行人的所有图像或视频,可以在监控相机网络所采集到的大规模视频数据库中实现快速的行人检索,并应用于行人历史轨迹分析、行人追踪和运动分析等相关任务中。同时,其使用的图像处理方法、网络结构和损失函数等也可以推动其它相关研究领域的进步。由于巨大的研究和应用价值,行人重识别受到了大量的关注,是当前计算机视觉领域中一个重要的研究课题。然而,行人姿态变化、遮挡、光照变化和相机视角差异等复杂因素,给快速准确的行人重识别带来了挑战。本文围绕基于深度学习的行人重识别进行了深入和系统的研究,分别研究了只含可见光跨摄像头场景,以及含非可见光非跨摄像头场景下的行人重识别方法。主要的研究内容和创新点为:1.基于空间和通道并行的全身人与局部人联合重识别。针对行人特征的空间位置不确定且可能被遮挡的问题,提出了一个基于空间和通道并行监督的网络。训练时,使用两个分支分别提取全局特征和局部特征,两个分支并行监督,使全局分支不同通道分量学习提取对应局部分支的局部特征。全局分支学习提取到的新的局部特征,具有全局感受野可以更好利用上下文信息,并且从完整输入区域中自动定位和提取对应局部区域特征,可以更好地应对姿态变化和相机视角差异等造成的特征所在位置的不确定性,而当对应局部区域被遮挡时则退化为常规的全局特征。测试时,只使用全局分支,提高网络效率。该方法在多个全身人行人重识别数据集和遮挡严重的局部人行人重识别数据集上都取得了很好的效果。2.基于特征空间中超球面映射的行人重识别。针对广泛使用的交叉熵分类损失对特征空间中特征分布缺乏显式约束的问题,提出了球面映射损失,并对应设计了一个新的网络结构。这是行人重识别领域首次将输入图像映射到特征空间中的一个超球面上,消除了特征向量模大小带来的特征偏差以及分类神经元权重向量模大小带来的类别偏差,分类结果只与特征空间中夹角有关,消除了其它干扰,在多个公开数据集上都取得了显著的性能提升。另外,提出了一个学习率预热策略,不需要修改网络结构和改变损失函数就可以改善训练效果。3.可见光图像与红外图像间的跨模态行人重识别。可见光相机无法在黑暗条件下工作,所以智能视频监控系统中常常引入红外相机,此时需要同时处理可见光与红外图像。针对可见光与红外间跨模态行人重识别问题:(1)提出了基于跨频谱双子空间匹配的红外跨模态行人重识别方法,通过生成多频谱输入图像迫使网络挖掘所有频谱共有的跨模态特征;(2)提出了基于模态迁移与双层级一致表示的红外跨模态行人重识别方法,在图像层级进行图像信息融合,并在特征层级设计了一个层次粒度三元损失函数。在含短波近红外与长波远红外图像的公开数据集上,两个方法都取得了当前最好结果。4.基于实例难样本挖掘损失的视频内行人重识别。现有方法都针对跨摄像头场景,而未考虑单摄像头所拍摄的视频内行人重识别问题。因此,提出了一个新的数据集用于研究视频内行人重识别问题,并设计了 一个行人重识别头部网络用于同时提取同一视频帧内多个行人的特征。最后,还设计了一个实例难样本挖掘三元损失,既可以用于跨摄像头行人重识别任务,也可以用于视频内行人重识别任务,具有很好的灵活性和更低的计算复杂度。实验结果证明了,该方法降低了训练时间并取得了更好的效果。