基于信息交互和跨模态的行人重识别研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:ALIMHL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会视频监控系统的不断完善,行人重识别作为一个重要的视频监控应用受到了广大研究者的重视。行人重识别旨在完成跨摄像头场景下对相同身份行人的识别任务,在跨摄像头寻人、嫌疑人识别以及目标行人轨迹追踪等视频监控任务中有着较为重要的应用。随着深度学习的发展,构建深度网络的方法逐渐成为了行人重识别的研究热点之一。对于单模态行人重识别,由于存在拍摄角度不同、光照强度不同及人物遮挡等问题带来的挑战,所以如何设计合理的深度学习网络是基于深度学习方法的主流研究方向。而对于跨模态行人重识别,由于要使用红外行人图像来匹配可见光行人图像,所以还需要考虑到如何缩小同一行人在两种模态下的特征距离。近年来,随着行人重识别方法趋于成熟,采用多分支结构的深度网络表现出了优秀的性能,多分支网络对每个分支使用损失函数计算损失值然后进行反向传播及优化。由于各个分支所作用的区域不同,所以不同的分支具有其独立的特征,不同分支得到的特征信息具有互补性。然而大多数具有多分支结构的网络忽略了各个分支在深层网络中的信息交互,没有使用到不同特征信息的互补性。为了较好地利用特征信息的互补性,本文针对深层次特征互补在单模态行人重识别与跨模态行人重识别中的应用展开研究,论文的主要研究内容如下:(1)为了促进单模态下全局分支与局部分支的信息交互,本文提出了全局映射注意力模块(Global-map Attention Module,GAM)。大多数多分支网络会使用一个基线网络来提取行人图像的深度特征,全局分支作用在整个深度特征区域,局部分支作用在部分深度特征区域。所以全局分支能够更加关注图像中行人所在的位置,但是对细节信息的提取相对较弱,而局部分支能够提取到行人图像中更多的局部细节信息,但是无法得到行人在整张图像中的位置信息。本文提出的GAM通过全局分支生成的热力图来确定行人所在的区域范围,使用热力图来计算空间注意力,然后将空间注意力作用在局部特征上。在行人图像中,行人所在区域拥有更多的有效信息,由GAM计算出的空间注意力可以使作用在行人区域的局部特征得到更高的权重。为了将生成热力图的方法与训练流程相结合,本文还提出了分段传播法在训练网络的过程中生成热力图,省去了单独生成热力图的步骤。(2)为了促进单模态下不同全局分支之间的信息交互,本文提出了标签类互学习(Labeled-class Mutual Learning,LML)。大多数基于特征学习的方法在训练流程中指定一个教师网络进行单向学习,或令不同特征进行双向相互学习。LML基于散度损失来完成不同全局特征之间的相互学习,但LML在学习方向上并不是特定的。对行人图像来说,每张行人图像都有唯一的标签,而不同的全局分支提取的是同一行人图像的全局特征,全局特征经过全连接层处理后可以得到与数据集中行人类别数量相对应的预测特征。在网络训练流程中,LML将学习方向动态的设置为标签类概率高的预测特征,针对不同的图像学习方向也会不同。(3)为了促进跨模态下多个分支间的信息交互,本文提出了多模态特征互补网络(Multi-modality Feature Complement Network,MFCN)。不同于单模态行人重识别,MFCN将信息交互的重点放在了缩小两种不同模态特征的距离上。MFCN构建了一个拥有双流输入和三流输出的基线网络来提取特征。两种模态的图像分别输入对应的输入流,然后由两个单模态流分别提取红外行人图像和可见光行人图像的特征。第三个输出流负责提取两种模态的共享特征,称为共享流,共享流的输入为另外两个单模态流的浅层特征,所以共享流可以提取出两种特征,分别是共享红外图像特征和共享可见光图像特征。在特征补充部分,MFCN利用了图卷积网络(Graph Convolution Network,GCN)的特性,通过设计图卷积网络中点与边的关系来指定特征的补充方向,完成了单模态特征向共享特征的补充,从而增强共享特征。综上所述,本文针对行人重识别提出了三种基于信息交互的方法,GAM,LML以及MFCN,并且在多个数据集上验证了所提方法的优良性能和模块的有效性。
其他文献
为了应对日趋严峻的物联网恶意软件攻击,需要对恶意软件进行详细的分析并获得有效的威胁情报,从而增强对物联网攻击的发现与预警能力。本文面向物联网威胁情报的需求,分别从恶意软件分析、轻量级物联网异常流量检测角度展开威胁情报挖掘关键技术研究。本文的主要工作和创新内容概括如下:(1)针对当前物联网恶意样本的检测率不高,物联网恶意软件架构复杂,用于训练的正常样本提取困难,动态分析检测耗时、耗费资源等问题,提出
甲状腺癌是全球增长最迅速的、最多见的内分泌恶性肿瘤之一。在最近的几十年中,甲状腺癌的世界发病率显著升高。甲状腺癌还是女性中排名第五的最普遍的癌症,并且女性患癌的概率是男性的3倍。由于甲状腺癌复杂的疾病进展过程,预测这种癌症的潜在生物标志物仍然面临巨大的挑战性。本文基于TCGA数据库和GEO数据库中甲状腺癌的多组学数据以及新近开发的一些特定的生物数据存储库,通过基因差异表达分析、构建生物网络以及基因
信息的爆炸性增长导致数据流广泛出现在各个应用领域中,如无线传感器网络数据流、股票交易数据流、电子商务数据流等,如何高效获取这些数据中蕴含的信息成为数据流挖掘的主要任务。区别于一般的静态数据,数据流通常具有到达速度快、规模大、动态变化等特征,并且数据流中的目标概念随时间推移会发生改变,导致概念漂移发生,严重影响数据流挖掘效果。此外,数据流中通常存在类别不平衡问题,导致少类实例中蕴含的信息难以获取。因
近年来,因严重交通事故、火灾及工业意外等所致的高能量损伤急剧增多,据估计我国每年因此而接受创面修复手术的患者有近百万例。不合理的术前设计方案易造成皮瓣崩裂、坏死等而引发患处功能障碍,甚至可致截肢,给患者增添更多的痛苦和经济负担。因此,研究并创新现有的术前皮瓣设计方法,快速制定合理的术前指导方案,是基础研究转化为临床应用极好的切入点,具有重要的理论意义和实际价值。本文面向临床中的创面实例,就三维创面
移动互联网时代,信息数据如图片、文本、音视频等呈现爆炸式增长。如何从这些语义关联且模态多样的数据中获取有价值的信息显得尤为重要,跨模态检索也因此备受关注。与图片检索等单模态检索不同,跨模态检索能跨越不同模态实现信息检索,更能满足用户日益增长的检索需求。而不同模态的数据特征表示间存在天然的异构鸿沟,无法直接度量其相似性,同模态数据的底层特征表示与高层语义类别间又存在语义鸿沟,难以获得语义一致的数据表
聚类分析作为数据挖掘和模式识别等领域的重要工具,一直以来都是非常热门的研究话题之一,并得到了非常广泛的应用。但是,随着应用环境的不断变化,特别是进入“大数据”时代,数据规模的庞大性和结构的复杂性对聚类分析提出了越来越严峻的挑战,特别是数据的高维度越来越普遍,包括各种图像数据、生物基因表达数据、搜索引擎数据等的维度往往高达上万维。传统聚类算法通常是针对低维度数据设计开发的,在进行高维数据的分析处理时
近年来,随着各种功能性材料的开发利用,微纳制造在诸如柔性电子、光学器件、微流控器件等众多领域显得尤为重要。目前几种主流的微纳制造手段中,还存在设备昂贵、加工效率低、成型范围有限以及制造精度低等问题,难以满足现有的应用需求。电流体动力学(Electrohydrodynamics,EHD)直写打印技术是一种新型的微纳尺度打印方法,作为一种无掩模、非接触、直写增材制造工艺,具有成型速度快、材料兼容性好以
三维(3D)成像广泛应用于生物医学、材料科学、人机交互等领域,相较于传统的二维成像与显示技术,基于微透镜阵列的光场成像可将光线的位置与角度信息以四维双平面形式进行编码,较传统方式增加了两个自由度,克服了传统成像无法采集光线方向的固有局限。光场图像由子图像阵列组成,其中包含了丰富的物体信息,这些信息中可在重构阶段恢复物体深度,在虚拟现实、三维重建、目标检测等机器视觉领域具有重要作用。然而,目前基于光
在现如今海量的数据环境和高效的性能要求下,深度学习算法因其具有的多层非线性结构而具有非常强大的特征表达能力和建模能力,已经在许多任务中逐渐取代了传统算法。现代医学中,医生主要依靠各种模态的医学影像图像做出诊断及治疗计划。医学影像图像的种类很多,如计算机断层扫描成像(CT)、核磁共振成像(MR)、正电子发射计算机断层显像(PET)等。不同模态的医学图像能够提供不同的信息,借助深度学习算法分析和处理医
随着芯片朝微型化以及高度集成化的趋势发展,芯片的封装速度以及容量都得到了极大地提高。芯片封装的高度集成化需求推动了封装技术快速发展,但随着芯片尺寸变小,芯片封装的制造工艺越来越具挑战性,封装过程中缺陷也越容易产生且难以检测,因此对芯片中的微缺陷进行可靠且稳定的检测显得十分重要。基于高频超声的声显微成像技术已经被广泛且有效地应用于微电子封装的微缺陷检测中,但是在高频超声检测过程超声会出现噪声和边缘衍