论文部分内容阅读
视觉注意是人类视觉系统中的重要部分,现有的视觉注意模型大多强调基于自底向上的注意,较少考虑自顶向下的语义,也鲜有针对不同类别图像的特定注意模型。眼动追踪技术可以客观、准确地捕捉到被试的注意焦点,但在视觉注意模型中的应用还比较少见。因此,提出了一种自底向上和自顶向下注意相结合的分类视觉注意模型CMVA,该模型针对不同类别的图像,在眼动数据的基础上训练分类视觉注意模型进行视觉显著性预测。本文的主要工作有:1.为了训练不同类别图像的视觉注意模型,从多个图像库和网络图像中选出动物、景物、人物和交通工具这四类出现频率较高,有代表性的图像。每一类图像分别进行眼动实验,对实验结果中的焦点图进行高斯卷积得到"ground truth"显著图来显示人眼实际关注的区域,构建四类图像的眼动数据集。2.从每一类图像的"ground truth"显著图中选取正、负样本,对不同类别的图像提取不同的高层特征,主要区别是目标对象检测特征不同,同时提取一系列的底层特征来定义显著位置,用线性支持向量机来训练分类视觉注意模型CMVA。最后与其它8个模型用三个评价指标进行比较分析。为了让未知类别的图像自动选择其对应类别的视觉注意模型,将四类图像作为训练集,标记了四个类别,分别是1、2、3、4。然后提取部分底层特征和高层特征,用SVM的多分类形式训练了一个图像分类器,使未知图像可以得到它所属的类别,进而使用该类的分类视觉注意模型。3.眼动仪进行眼动实验存在一定的误差,为了比较眼动结果训练的模型和真实的显著图得到的模型之间的差距,让被试对四类图像手动标记图像中的感兴趣区域,得到手动的"ground truth"显著图。最后通过评价指标比较眼动模型和手动模型。实验结果表明,与现有的其它8个视觉注意模型相比,该模型的性能优于其它模型。和手动模型相比,性能稍差,但是可以代替人手工标记的繁重,大大地提高了效率,很有研究的价值。