论文部分内容阅读
图像作为多媒体数据的重要组成部分,简单直观、可以快速准确地表达信息,是人类活动中最常用到的信息载体。同时,很多计算机视觉任务的研究,都是以图像的高效表示为基础的。因此,研究有效的图像表示方法具有迫切的实际需求和广泛的应用价值。 本文主要研究高效的图像表示,提出了一系列融合视觉与语义的联合图像表示方法,并以图像分类为具体应用对所提方法进行了实验验证。具体工作主要体现在以下几个方面: 1.提出了一种融合多通道视觉上下文的联合图像表示方法,该方法主要在物体本真、强相关视觉上下文和弱相关视觉上下文三个不同的通道上进行图像的联合表示学习。物体本真排除了外界的干扰,更多地关注于物体的内容信息;强相关视觉上下文利用一个较松散的边框来包含物体周围的上下文内容;弱相关视觉上下文是由图像的背景恢复得到的不包含物体区域的图像内容。物体的这两种视觉上下文可以对图像的表示提供良好的辅助判别力,融合这三个通道的图像特征可以学习到同时具备视觉信息和上下文的图像表示方法,并且在公共数据集Caltech-UCSD Birds200和Oxford Flowers17上进行了实验分析和验证,分类结果证明了所提方法的有效性。 2.提出了一种基于层次化深度语义学习的图像表示方法,从而更有效地表达图像的语义内容。在图像视觉特征的基础上,借助于空间位置关联的图像块之间的类别语义关联,学习到能够代表图像类别信息的语义表示,进一步融合视觉特征得到单层的图像深度语义表示。同时,基于上述语义表示,通过多层的迭代重构,学习到层次化的图像深度语义表示,最终得到具有较强辨别力和紧致表达力的联合图像表示。在公共图像数据集Caltech-256、Caltech-ucsd Birds200、MIT Indoor Scene、Oxford Flowers17和UIUC Sports上分别验证了所学习到的单层和多层图像深度语义表示的判别力。