论文部分内容阅读
近年来,随着人工智能技术的飞速发展,深度学习技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟,主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力,从而降低其在测试样本上的泛化误差,而机器人环境感知中涉及的任务与环境具有多样化特性,且严重依赖于机器人硬件平台,因而难以针对机器人各感知任务提供大量标注样本;其次,对于解不唯一的病态问题,即使提供大量的训练数据,深度学习方法也难以在测试数据上提供理想的估计,而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题,其输入中没有包含对应到唯一输出的足够信息。针对上述问题,本文以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景展开研究,具体取得了以下四个方面的创新性研究成果:(1)提出约束隐层特征表示的图正则自编码器,以流形假设为先验知识约束隐层特征保留输入空间中的局部近邻特性,并通过理论分析论证了图正则项有助于学习对于输入的小量干扰具有鲁棒性的特征表示,从而提升自编码器网络的泛化能力。在此之上,本论文将图正则自编码器应用于2D激光观测的场景分类问题,利用广义图正则项约束样本采集位置相邻的2D激光观测学习相似特征表示,说明图正则项可用于嵌入移动机器人空间位置等特定任务下的先验知识。(2)提出约束深度神经网络结构的语义正则网络,以机器人感知多任务之间的相关性为先验知识构造单输入多输出的正则化网络结构,其中像素级的语义分割任务作为图像级的场景分类任务的正则分支,约束网络在理解物体语义信息基础上理解场景类别,从而在大幅减少所需训练样本数目的同时提升网络在图像场景分类任务上的泛化能力。(3)提出约束深度神经网络结构的嵌套残差网络,针对单目图像深度估计的病态特性,引入移动机器人感知中常见的稀疏深度观测并从中生成稠密参考深度,再利用稠密参考深度与真实深度的差值具有物理意义的先验知识构造正则化的嵌套残差网络结构,约束网络直接估计残差深度,从而在仅引入十分稀疏的深度观测如2D激光点云时即可显著降低单目图像估计深度的不确定性。(4)提出约束网络输出的深度移动立方体网络,针对从部分观测重构物体三维模型问题的病态特性,提出端到端地估计可表示任意拓扑结构的三维网格模型,使得直接对重构的三维网格模型进行正则成为可能,再以三维模型几何特性为先验知识直接约束三维网格模型的平滑性以及复杂度,使得网络可直接从不完整且有噪声的观测给出一个理想的三维网格模型估计,对于机器人抓取操作的感知等实际应用具有重要意义。对于上述提出的关键技术,本论文在多种机器人环境感知任务上设计了定量与定性实验,在多个数据集上检验了算法的性能,充分验证了在正则化的统一框架下提升深度学习泛化能力的有效性。