论文部分内容阅读
食物对人类生活至关重要,是人们生活的基础。随着社交网络、移动网络和物联网的快速发展,人们通常会上传、分享、记录食品图像、食谱、烹饪视频和饮食记录,这样可以轻松获得大规模的食品数据。研究人员可以利用这些食品数据在食品图像领域做各种研究,例如食品图像识别、食品检索等。食品图像识别是开展食品推荐、检索等领域的研究基础,并且有着广泛的实际应用,如多模态的食品记录和个性化的医疗健康等,因此食品图像识别越来越受到关注。现有方法大多数都是使用深度卷积神经网络(Convolutional Neural Network,CNN)直接提取整张图像的视觉特征来进行食品图像识别,而没有考虑食品图像自身的特点。不同于一般的物体图像,食品图像通常不具有独特的空间布局,而且没有共同语义部分。因此,直接使用CNN很难捕获食品图像判别性信息。随着移动互联网的发展,用户不仅上传大量的食品照片,而且提供丰富的食材信息,就像物体对场景的重要性一样,食品图像中的食材对于食品识别同样非常重要。而且许多研究结果表明使用语义上有意义的食材可以作为食品图像识别的属性信息,它从不同的视角和粒度提供互补性信息来提高食品图像的识别性能。此外,尽管食品图像通常不具有明显的空间排列,但是可以使用不同尺度的食品图像块(Patch)融合成多尺度的特征表示。这样的表示可以将Patch特征从粗粒度尺度融合到细粒度尺度,因此它们的特征含有具有判别性图像区域的信息。而且这样多尺度融合可以对食品图像的几何变形变得更加鲁棒。因此,本文基于食品图像食材信息开展食品图像识别的研究,主要研究内容和贡献如下:(1)本文提出了 一种多尺度多视角特征融合(Multi-Scale Multi-View Feature Aggregation,MSMVFA)方法来进行食品图像识别。本文使用食材信息微调CNN来提取中层属性特征,从类别信息监督的CNN中提取高层语义特征和深层视觉特征。MSMVFA可以对这三种类型的特征进行多尺度融合,并对具有不同粒度的各种类型特征进行多视角融合,以此产生更具区分性的细粒度特征表示。(2)本文提出了一种食材指导的级联多注意力网络(Ingredient-Guided Cascaded Multi-Attention Network,IG-CMAN)来进行食品图像识别,IG-CMAN能够以粗粒度到细粒度的多尺度方式,从类别信息和食材信息监督的子网络中顺序定位到多个食品图像区域。这些在不同信息监督下生成的区域特征是非常互补的,融合这些区域特征可以形成更全面、更具区分性的特征表示。(3)本文构建了一个与现有食品数据集非常互补并且含有食材的新食品图像数据集。该数据集包含Wikipedia列表中200种食品、大约200,000张食品图像和319种食材。它可以进一步推动食品图像识别领域的发展。