基于自然语言表达的机器人目标检测方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaochushang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频与图像是机器人获取信息的主要渠道,自然语言是人与机器人沟通最自然的方式。服务机器人以家庭为主要工作环境,以人类为主要服务对象,为方便与人类沟通,服务机器人应当具备基于自然语言检测物体的能力,从而根据人类的自然语言命令(如“请递给我桌上的杯子”)定位图像中的物体。近年来,自动从大规模数据集中学习特征表达的深度神经网络已经逐步取代了人工特征,大大提高了机器人处理图像与自然语言的能力,但基于自然语言表达的目标检测进展相对缓慢,其主要原因如下:(1)带有自然语言标注的目标检测数据集通常比较小,深度神经网络难以从中学习到高效的特征表达;(2)建模理解图像与文本联系比较困难。图像中的物体具有颜色、种类、形状等多种属性,并与图像中的其他物体存在语义上的联系,而自然语言可能描述其一种或多种属性。(3)在家庭环境下,物品并不是孤立存在的,而是与其他物品存在形形色色的联系,而在物品关系学习方面的研究较少。针对以上问题,本文研究基于自然语言表达的目标检测问题,即给定一副图像,一个任意的自然语言表达,如何自图像中定位与该自然语言相匹配的物体?本文的主要研究内容如下:(1)本文研究了在小规模数据集上获取更高效特征的方法,利用迁移学习的思想,从大规模数据集上预先训练图像特征提取器与单词向量表达模型,从而获取更好的泛化性能。(2)本文研究了两种高效的匹配图像特征与自然语言特征的方法,一种计算自然语言特征与预先提取的图像特征的距离,返回距离最近的图像区域;一种将该任务转化为易于优化的二分类的问题,综合图像区域信息与自然语言信息共同判断二者是否匹配。在开源数据集RegCOCO与G-Ref对两种方法进行了训练与验证,证明了该方法的准确性与高效性。(3)本文引入了注意力机制学习图像实体之间的关系,根据自然语言信息与图像区域信息共同预测注意力权重,令模型将更多的“注意力”集中到图像相关的区域中,综合相关区域信息,判断是否与自然语言表达相匹配。在G-Ref数据集上设计实验并验证了该方法的有效性。
其他文献
网络服务提供商(ISP)为了提高用户体验度而有意收集Web查询等信息并分析行为。尤其是“跨屏营销”的流行,使得ISP可以通过用户账号登录方式准确定位用户,并获取查询数据。搜
在临床医学中,头部定位尤为重要。针对头部定位中存在的定位不准确、实时性不好、分辨率不高等问题,本文在头部定位中,通过对人脸检测、人脸特征点提取、头部旋转角度等方面
包心鉴,男,1949年生,江苏淮阴人。山东大学博士生导师,济南大学政法学院名誉院长,中国政治学会副会长。曾长期担任山东省社会科学界联合会党组副书记、副主席、巡视员(正厅级
实时系统是一种对时间性能要求很高的系统,它要求处理器不仅能够完成需要处理的任务,而且能够满足一定的时间约束。随着实时系统在实际生活中的广泛应用,对它的建模与分析也
网格是分布式计算领域重点研究问题,它能够将分布广泛的资源结合起来,全面共享,消除资源孤岛,协同解决大型计算问题。但目前在大部分的网格系统中,至少存在一个中心服务器来
现在的网络安全性随着科技的飞速发展逐渐得到进一步加强,许多企业已经把办公系统搬到了 Internet上面,网络办公已成为一种趋势。通过Internet进行合同信息管理,使合同管理得
在大数据时代,推荐系统随处可见,推荐系统作为一个有效的工具,能很好的提高用户获取信息的效率。因此,不断的研究以改善推荐模型的性能,具有非常重要的意义。本文针对现有推
工业过程运行控制由运行层设定值控制和回路控制层过程控制两层结构组成,其目标是将运行指标控制在目标值范围内。现有的工业过程运行控制中,回路控制层过程控制输入与输出信
在计算机图形学领域,如何真实高效地模拟自然场景一直是研究的热点之一,其中复杂流体场景的交互模拟在灾难仿真、虚拟现实、影视特效等领域都有重要的应用价值。但现有基于物
过程监测是保证生产安全、稳定运行的一个非常重要的措施。现今的生产过程会产生大量的数据,这为仅依赖数据的过程监测方法提供了数据基础。但是在大规模数据中,会包含很多冗