论文部分内容阅读
场景理解是是计算机视觉研究主要目的之一。场景理解属于高层视觉范畴,其主要任务包括识别复杂场景中的对象、判别对象间的关系、解释事件发生的时间和地点等。场景理解需要综合视觉领域多个方向的研究成果,如在物体识别与分割的基础上,通过结合场景标注、分类等信息可以进一步解决场景理解问题。近年来,基于词包表示的主题模型已广泛应用于物体识别与分割中,并取得了较好的结果。但是现有模型大多存在缺陷,特别是假设主题的生成与像素块的生成均是独立的,缺少对场景中不同对象关系的建模,且一般难以更好地利用场景中其它模态的信息。本文提出了一种新的统一概率图模型,采用基于主题的一致区域标注方法来自动标注图像区域。本文模型在以下两方面扩展了经典的LDA模型:在主题层次通过将Markov随机场引入空间相邻关系的约束,以及加入标注模块来学习和推断图像的区域标注。本文给出了平均场变分推断法进行模型学习和推断的具体方法。本文模型有如下两个优点。第一,我们对空间信息作显式建模,以获得更加连续一致的区域标注;第二,在训练模型时我们只需要对图像整体的标注,而不必把标注关联到特定的像素或区域,这种标注和图像区域的关联可以自动推断,有效地减轻了人工标注的成本,提高了效率。基于本文学习所获得的模型,可以给定一张无文字信息的场景图像,自动标注其中的场景区域。最后.我们通过在2个公开数据库上的实验评估了本文模型和方法的性能。