论文部分内容阅读
图像理解是对图像处理及其应用的一个重要方面,其主要涉及到对图像中目标的识别、检测等,通过对于图像中所含目标之间的关系进行分析,来理解图像中的内容。在实际应用中图像理解涉及到多个方面,例如目标识别、场景理解、图像中目标定位、大规模图像检索、图像分割和图像标注等。本文主要基于大规模图像检索和图像自动标注来展开相关研究。在计算视觉中,基于深度学习的图像处理成为人工智能领域非常成功的一个突破方向,其具有非常强大的特征表达能力以及学习能力,而且当前智能时代计算能力的迅速提高使得深度神经网络能够在深度和广度上都能进行扩展,来利用大规模的训练数据。在图像检索和图像自动标注这两个方面,都涉及到对图像的内容进行理解。不管是图像的相似性比较还是图像的标注问题,都是针对图像中的某些有效区域,而不是整幅图像来进行处理。本文提出基于细粒度的图像区域处理方法,来解决图像检索和图像标注这两个方面的问题。针对图像检索中的特征提取和哈希学习问题,图像的特征表示至关重要,因为它能够在最后的检索中真正保证检索结果的召回率。本文提出结合Proposal和深度卷积神经网络的框架来进行细粒度进行图像的特征表达,以进一步提高图像检索的性能。该框架的特点是面向没有ground-truth框的多标签图像数据集,首先采取无监督方法的proposal方法来产生可能包含目标的候选框,再利用深度卷积神经网络来提取区域性的图像特征表达,基于这些细粒度特征再进行图像哈希函数的学习。本文通过在三个有代表性的公开数据集上进行验证,通过与已有的方法进行对比,表明这种细粒度方法更能够准确表示图像中的有效信息,明显提高了检索结果的性能。针对图像的自动标注问题,本文提出结合视觉注意机制的循环神经网络来进行图像的标注。现有的大多方法,一种是利用手动提取图像中低层的视觉特征与已有的特征模式进行匹配,然后确定图像中有什么目标,另一种是基于卷积神经网络来进行图像中多种标签的预测。本文提出序列化地处理图像中的局部区域,对其进行准确识别,并通过实验验证了该方法的有效性,并且能明显地提高图像自动标注的结果。本文主要研究深度学习的相关技术,并结合图像理解中的具体问题进行研究,提出了新的方法并通过大量的实验验证了新方法对于解决该问题的有效性。