论文部分内容阅读
近几年,随着深度学习技术的普遍运用,图像处理与分析的研究工作取得了巨大成功。在以车牌号码识别、人脸识别、单目标检测等为代表的图像分类、目标检测等应用领域,取得的进展可谓是突破性的。然而,在对图像更高层次的抽象理解上,仍面临着严峻的挑战。典型地,例如图像的美学质量评价(美、不美)和图像的情感信息识别(快乐、愤怒、恐惧、悲伤等),都是值得深入研究的问题。现阶段,两个问题都已有同行在研究,并取得了一定的进展。但是,迄今为止,无论图像的美学质量评价还是情感信息识别任务,在科研界都被视作单独的任务分别进行研究。直观上,图像所表达的情感信息与图像的美学质量评价结果可能存在一定的联系。例如,让人感觉心情愉悦的图像,有较大的可能性被认为是美的。让人恐惧、厌恶的图像,被认为是美的可能性相对较小。客观上,已经有神经美学专家证明人类在做出美学判断和情感认知的时候,大脑的应激反应区域相同,这可从一个侧面表明图像所表达的情感信息与图像的美学质量之间存在一定的联系。由此,本研究工作起源于一个自然的思路:图像的美学质量评价和情感信息识别两个任务是相互关联的,且共享某些高层次特征,因此将两个问题联合建模研究可能同时提升两个任务的性能。本文首次利用多任务学习的方法同时去解决图像的美学质量评价和情感信息识别问题,并且将它们建模于同一个深度卷积神经网络框架中。具体来说,本文提出了一种新型的美学-情感多任务学习卷积神经网络(Aesthetics-Emotion hybrid Network,AENet)。与传统深度学习网络一样,AENet具有端到端学习的特点。因此,只需要给定模型任意输入图像,就可以同时得到其美学质量评价与情感信息识别结果。在这个模型中,任务自身相关的特征和任务间共享特征在网络的三路分支中分别提取,并经过特征融合单元进行融合和分离,形成新的特征图。紧接着,再经过多尺度池化综合单元的整合与归纳,网络将不同层次的特征分别用于提升图像美学质量评价和情感信息识别的准确率性能。另外,为支撑本文研究工作的顺利展开,针对当前科研界尚没有同时具有美学和情感标签的大规模图像数据集的现状,本研究还建立了当前第一个同时具有美学和情感标签的大规模图像数据集(Images with Tags of Aesthetics and Emotion,IAE),该数据集图像搜集于互联网图片搜索引擎Flickr和Instagram。本文利用众包技术标记数据,然后筛选可靠专家打分,使得该数据集具有数据分布合理、标签置信度高、类别均衡性强等优点。为验证本文所提出的AENet模型的性能,本文在所构建的大规模图像数据集IAE上开展了较为系统的实验:(1)与现有方法的对比实验结果表明,本文所提出的多任务模型在图像的美学质量评价和情感信息识别上的准确率性能可分别提高3%和4%,有效验证了将两者联合建模可同时提升两个任务性能的设想。对比实验由单任务和多任务两个部分构成,与单任务模型相比可以证明多任务思路的合理性和有效性,与多任务模型比较则可以证明本文AENet模型的创新性与优越性。(2)对AENet分别删除特征融合单元和多尺度局部池化单元,并与原有AENet的性能作对比,进行消融实验,验证了主要构件对AENet网络性能的贡献,使得网络架构能够更好地被其他学者进行可拆分地利用,并从侧面增强了实验结果的可靠性。(3)本文利用已经训练好的AE-Net模型分别在美学数据集AVA和CUHKPQ、情感数据集weakly-FI和ArtPhoto上进行了跨数据集的性能测试实验,实验结果表明了本文所提AENet模型具有较好的泛化能力,同时也从另一个角度证实了本文所构建的IAE数据集标签的置信度和可靠性。