论文部分内容阅读
三维模型检索在机械设计、机器人操作、增强现实等领域有重要应用,从三维数据库中高效准确的检索与查询对象相关的模型是该课题的研究目标。与矩阵阵列表示的二维图像不同,三维模型表示形式有多种,其中,用一组投影图片集表示三维模型的多视角表示法具有很强的灵活性和优越的性能。传统基于多视角三维模型检索任务可分为四步:视角渲染、视角选择、特征描述和多视角匹配。深度学习技术出现后,这一课题的研究重点也发生了一定变化,由于视角特征描述在其中起到最为关键的作用,因此如何对多视角进行有效的特征表示成为研究热点。近些年深度学习技术的飞速发展,极大的促进了二维图像特征描述能力的提升,这使得多视角表示方法的优越性得到凸显,同时,端到端的网络学习方式也让该任务中的距离计算等问题大为简化,三维模型检索与姿态估计的性能取得了长足进步。然而,如何学习多视角的特征表示是一个很有挑战性的问题。一方面随着三维数据的爆炸式增长,模型的类别越来越丰富,带来数据结构复杂性增加,传统方法已经不能有效应对这种大规模的复杂数据。另一方面,设计训练简单可靠的网络,有效学习到类别内分布紧凑、类别间相互远离的特征的相关研究远没有达到人们期望的水平。本文针对多视角三维模型检索与姿态估计中的特征学习问题做了多方面研究。根据多视角特征在检索任务中的组织方式分为决策级融合的模型特征和特征级融合的模型特征。决策级融合包含无监督和有监督两种面向独立视角的特征学习方法,特征级融合则研究了用于模型检索模型的单模态特征以及从三维物体检索相关模型的多模态特征。具体来说,本文的研究工作和主要贡献体现在以下四方面:首先,提出一种无监督的视角特征学习方法。利用大规模比赛分类任务中训练得到的网络作为视角特征提取工具,代替手工特征沿用传统检索流程。在标准数据集上对比了两类特征的性能差异,证实了卷积分类网络在多视角检索上强大的特征描述能力。分析预训练神经网各层提取视角特征的特点,提出利用图模型挖掘各层特征高阶信息,并基于多图学习框架融合各全连接层特征实现检索性能的进一步提升。研究了基于稀疏自编码器的特征降维方法,在保留视角有效描述信息的同时大幅降低了特征维度,显著提高了检索速度。基于预训练特征所做的一系列研究工作是以无监督的方式学习视角特征,不依赖有标注实验数据,因此可直接用于各种类型的三维模型数据。其次,研究了独立视角特征的学习问题,提出通过训练深度卷积网络计算每个视角特征。利用预训练网络做主干,以降低视角分类损失为目标微调预训练网络,得到适合多视角三维模型数据分布的特征提取网络。基于循环神经网络研究多视角特征融合技术,将三维模型对应的多视角集合以序列化形式依次输入循环神经网络中,不断综合累加各视角信息最终输出一个对应的模型特征表示。以视角重要性为出发点,详细分析了不同视角在表示三维模型方面的区别,研究注意力机制在融合多视角特征方面的作用。采用双通道网络结构训练循环神经网络,增强了融合特征的鉴别能力。再次,以加入多视角池化层的特征级融合网络为基础,详细研究了三元组损失以及中心损失在学习模型特征上的作用,提出能有效缩小类内特征差异的新型损失函数,显著提升了检索性能。就分类和检索任务的区别做了阐述,指出分类网络用于检索问题的缺陷,并表明特征间的相对距离是提升检索任务性能的关键。以此为出发点,分析了已有三元组损失函数的特点,提出立体三元组训练方法,能在有限的训练样本规模下高效挖掘困难正负样本对,使卷积特征提取网络得到充分训练。接着,研究了中心约束对网络的限定作用,提出的中心-分离损失函数不仅能有效约束类内特征散度,而且对扩大类间特征距离起到明显效果。最后,本文就三维物体检索三维模型以及估计三维姿态问题做了研究,面向现实场景建立起两个不同数据领域的关联。跨模态的三维模型检索任务中,构建网络将三维物体与模型的特征映射到同一嵌入空间中,基于上一章中心约束的工作提出了针对跨模态检索的三元组-中心分离损失,使两个不同数据域的特征有类似分布,在未经过训练的实际场景中取得了非常不错的效果。分析总结了自然图像中三维视角估计方面的相关工作,采用分类-回归模型估计视角姿态,以阶段式训练方法分别学习了视角特征、视角分类、视角残差以及视角类别网络,实现现实场景中三维物体的分类及姿态估计,检索到带有姿态信息的相关模型。本文分别从基于决策级融合和特征级融合两种角度研究了多视角表示的三维模型检索任务,对基于深度学习技术的多视角特征学习方法做了深入研究,设计了多种特征训练方案,提出了多种性能优良的损失函数,用于提升多视角三维模型的检索性能。