论文部分内容阅读
视频与图像是机器人获取信息的主要渠道,自然语言是人与机器人沟通最自然的方式。服务机器人以家庭为主要工作环境,以人类为主要服务对象,为方便与人类沟通,服务机器人应当具备基于自然语言检测物体的能力,从而根据人类的自然语言命令(如“请递给我桌上的杯子”)定位图像中的物体。近年来,自动从大规模数据集中学习特征表达的深度神经网络已经逐步取代了人工特征,大大提高了机器人处理图像与自然语言的能力,但基于自然语言表达的目标检测进展相对缓慢,其主要原因如下:(1)带有自然语言标注的目标检测数据集通常比较小,深度神经网络难以从中学习到高效的特征表达;(2)建模理解图像与文本联系比较困难。图像中的物体具有颜色、种类、形状等多种属性,并与图像中的其他物体存在语义上的联系,而自然语言可能描述其一种或多种属性。(3)在家庭环境下,物品并不是孤立存在的,而是与其他物品存在形形色色的联系,而在物品关系学习方面的研究较少。针对以上问题,本文研究基于自然语言表达的目标检测问题,即给定一副图像,一个任意的自然语言表达,如何自图像中定位与该自然语言相匹配的物体?本文的主要研究内容如下:(1)本文研究了在小规模数据集上获取更高效特征的方法,利用迁移学习的思想,从大规模数据集上预先训练图像特征提取器与单词向量表达模型,从而获取更好的泛化性能。(2)本文研究了两种高效的匹配图像特征与自然语言特征的方法,一种计算自然语言特征与预先提取的图像特征的距离,返回距离最近的图像区域;一种将该任务转化为易于优化的二分类的问题,综合图像区域信息与自然语言信息共同判断二者是否匹配。在开源数据集RegCOCO与G-Ref对两种方法进行了训练与验证,证明了该方法的准确性与高效性。(3)本文引入了注意力机制学习图像实体之间的关系,根据自然语言信息与图像区域信息共同预测注意力权重,令模型将更多的“注意力”集中到图像相关的区域中,综合相关区域信息,判断是否与自然语言表达相匹配。在G-Ref数据集上设计实验并验证了该方法的有效性。