双目自监督三维目标检测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:meixueer2972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的三维目标检测方法需要大规模的标注数据才能达到良好的性能,而三维框的标注需要标注者在不完整的2.5D稀疏点云下,凭经验不断调整其边界,标注难度大且容易引入标注误差。为了解决标注难问题,本文对自监督三维目标检测方法进行深入研究,主要分为以下三个部分:(1)为了解决三维目标检测对大规模标注数据的依赖和标注难问题,本文设计了“预测—渲染—比较”三段式结构的自监督双目三维目标检测网络,只需要简单的二维标注,不需要难获取的三维标注。其中,预测模块负责预测目标的三维参数。渲染模块基于预测参数重建目标模型,渲染得到模型表面点云、分割图、深度图。比较模块将渲染得到的结果与实际场景的三维点云、分割图、深度图建立比较损失。比较损失通过可微渲染反向传播到参数预测网络上,引导参数预测网络学习。在实际预测时,只需要预测网络即可。同时,本文对三个模块都进行了针对性的优化,包括对输出值的优化、梯度解耦、损失函数优化等,提升了自监督三维目标检测的性能。(2)为了提升自监督三维目标检测网络的实用性和竞争性,本文对自监督三维目标检测的实际应用问题展开进一步研究。针对实际自动驾驶系统中缺乏分割和二维框标注问题,本文利用预测的分割和二维框替代,使检测网络不需要任何人工标注,只需要驾车出行,采集的数据即可训练。并对实际场景点云存在的背景、地面、遮挡等干扰,设计了背景过滤算法、地面过滤算法、遮挡过滤算法来处理预测分割图不准确引起的点云杂乱问题。此外,由于2.5D点云数据的稀疏性和渲染结果中角度的歧义性,实际应用中角度的学习极易陷入局部极小值。针对该问题,本文提出全局角度搜索算法,利用倒角距离可以衡量模型和场景贴合程度的特性,全局搜索多个离散角度,以实际场景和重建模型最佳拟合的角度作为真实角度引导角度预测网络。(3)为了验证本文自监督三维目标检测算法的竞争性,本文在KITTI公开数据集上进行实验,并与其他全监督、自监督的三维目标检测方法比较。本文双目自监督检测方法的性能不仅可以接近全监督的双目三维检测方法和基于优化的自监督三维检测方法,而且本文的方法可以达到实时的速度,领先于优化的方法。此外,针对本文提出的场景过滤算法和全局角度搜索算法,进行了自对比实验验证其有效性。通过场景过滤算法和全局角度搜索算法,使用预测分割的自监督三维检测方法性能可以接近使用人工标注分割的自监督方法性能。
其他文献
近几年科技和信息的发展带动基础设施供应链迅猛发展,随之而来的基础设施安全问题也越来越被全世界关注。基础设施供应链在公共服务系统和物流链中一直扮演重要的角色,它越来越多被应用到机场,消防局,物流工厂等领域中。而这些设施在遭受到恐怖袭击或者自然灾害后可能对现代社会的经济发展和社会福祉产生巨大的危害,所以保护它们的安全是这些产业平稳运作的基本前提。在轴辐网络中关于枢纽拦截和枢纽保护还存在许多挑战难以攻克
随着科学技术的不断进步以及对竞技体育越来越高的目标追求,将信息化辅助工具应用在体育比赛与训练当中已经成为一种趋势。排球项目是国家重要的体育项目之一,教练及运动员一直在寻找排球训练环节中的突破点,希望通过制定更加有效的针对性训练方案,实现运动员各项运动水平的不断提高。对于训练中产生的大量训练内容,其分析与统计工作目前仍停留在经验判断以及人工统计层面,教练员主要通过现场指导以及观看训练视频回放的形式对
随着工业互联网的应用越来越广泛,其安全问题也开始逐步受到重视,在攻击者之前发现其存在的潜在安全隐患是十分重要的。模糊测试是一种常用且简单高效的漏洞检测工具,目前在工业互联网漏洞挖掘中也应用广泛。在传统的协议模糊测试方法中,生成测试用例需要花费大量人力和时间来对协议规范进行分析,且随着协议的改变,生成方法将不具备通用性。因此需要设计一种能降低协议分析成本且能得到较好测试效果的模糊测试方法。近年来随着
石油炼化行业是我国重点耗能产业,随着人们需求的增加,生产规模不断扩大,能源需求量随之提高,节能降耗成为当下工作的重点。常减压装置在炼油过程中能耗占比最大,且负责重点产品的产出,其能效水平直接关系到能源的利用效率和企业的经济效益,因此面向常减压装置进行能效评估和能效优化的研究具有重要意义。本文以国家863项目“面向石化工业能效监测评估及优化控制技术与系统”为背景,针对常减压装置单位综合能耗产出量这一
网络在信息化的社会中已经拥有不可取代的地位,然而频发的网络安全问题也不可被忽视,与教学和生活息息相关的校园网也是如此。出口带宽限制、威胁事件突发等问题都会带来严重的后果。防火墙的部署能够有效管理网络,其产生的日志中包含各种信息,分析这些数据能够及时了解网络状态。然而防火墙等网络设备产生的日志数量增长过快,如何高效地完成对海量日志数据的处理,又是一个亟待解决的难题。基于以上的问题和需求,本文以防火墙
铝电解电容器是寿命敏感器件,随着时间的推移,其参数退化到一定程度时,必然会影响电路板的寿命,故而研究其退化规律与寿命特征是至关重要的。文章从铝电解电容器结构和退化机理出发,将温度作为加速敏感应力设计了加速退化试验,并采用加速退化数据进行寿命预测,给出了延长铝电解电容器使用寿命的正向设计方向;从状态修的需求出发,提出了基于BP神经网络的铝电解电容器剩余寿命预测方法,其预测数据来源既可以是现场实测数据
显著性目标检测对于图像理解的进步至关重要,并且已在各种计算机视觉和图像处理任务中展现出巨大的潜力。现有的显著性目标检测算法根据输入图像类型可以分为RGB、RGB-D和光场方法三类。不同于RGB数据,RGB-D和光场数据通过深度图、多视角图和焦点堆栈提供了场景的精确几何信息,如此丰富的几何信息可以为显著性目标检测在挑战性场景下提供有效的显著性特征。然而,显著性目标检测作为许多任务的预处理步骤,要求高
随着数据规模和计算资源的快速增长,机器学习在理论和实践两方面都取得了长足进展。传统机器学习算法需要大量的标注数据用于训练,然而在诸多实际应用中获取大量标注数据的代价非常高。此外,传统机器学习算法通常依赖于训练数据和测试数据服从独立同分布这一假设,然而在实际应用中上述假设往往难以成立。域适应放宽了这一假设,能够从具有丰富标签数据的相关领域进行知识迁移与复用,是解决目标任务标注数据稀缺的一种基础方法。
图像文本匹配在连接视觉和语言方面起着至关重要的作用。目前的一部分先进方法试图通过丰富的特征编码推断更有视觉语义性的全局对齐信息;而另一部分模型通过采用跨模态的注意力单元来捕捉区域和单词之间的潜在局部对应关系,然后将所有的对齐信息整合得到最终的相似度。无论是开发图像和文本之间的全局对齐,还是探索区域和单词之间的细粒度对应关系,都取得了令人印象深刻的成功。然而,这些工作都面临两个亟需解决的问题。首先,
随着社会经济和科技的发展,越来越多的监控摄像头被安装在社会的各个角落,这些摄像头在维护社会治安方面起到了巨大作用。然而很多时候如何高效地利用好这些数据却是一项十分艰巨的任务,使用科技手段以减少人力是一个很自然的选择。因此,针对自动跟踪并关联多个摄像头下面多个行人技术的研究有着十分重要的现实意义,该技术被称为多摄像头多行人跟踪。多摄像头多行人跟踪是一个复杂的任务,该技术可以对不同摄像头下面的多个行人