论文部分内容阅读
随着现代互联网技术的飞速发展,特别是智能手机等电子设备的普及,人们日常接收的信息量正以指数级别增长,其中绝大部分感知信息来源于人类视觉。而图像作为视觉信息的载体之一,本身隐藏着大量的重要信息。图像描述技术作为深度学习的重要研究方向之一,涉及计算机视觉和自然语言处理两个领域,在图像识别,无人驾驶方面拥有较为出色的表现。本文利用深度学习远超传统技术的优异性能,对图像场景描述模型进行建模,并展开了相应的探索研究,其具体研究内容如下:(1)从卷积神经网络特征表达能力不足和长短期记忆网络缺乏信息指导的问题出发,设计了基于RBM和gLSTM的图像场景描述模型。权值矩阵是决定深度神经网络特征提取能力好坏的重要表现之一,本文分析了受限玻尔兹曼机训练过程中无监督学习和反向传播距离较短的特点,其权值矩阵更加拟合训练样本。基于此,本文采用受限玻尔兹曼机为卷积神经网络训练并初始化权值矩阵,从而有效提高卷积神经网络特征表达的能力。另外,考虑到传统长短期记忆网络仅拥有开始时刻图像特征的指导,故研究了三种不同的语义信息,在每一时刻指导长短期记忆网络生成描述语句,从而提高描述语句的准确性。最后,在数据集Flickr8k和Flickr30k上进行了实验仿真。实验结果表明,模型对描述语句的精确率,召回率和连贯性有着显著提高,其BLEU和METEOR指标评分比同类型模型平均高2.2分,另外,卷积神经网络准确率也平稳在93%,并且收敛速度更快更平滑,也从侧面说明经受限玻尔兹曼机优化过的卷积神经网络性能更加优异。(2)对中间语义特征和描述语句之间的关系进行研究,设计了基于PCA与Attention的图像场景描述模型。分析了中间语义特征质量对描述语句准确率的影响,决定采用主成分分析的方法降低特征维度。利用一个特征投影空间,计算图像特征的投影,提高特征对比度。其次,借鉴人脑的注意力机制,将软注意力机制加入模型框架。通过加权求和,计算与当前描述语句最相关的中间语义特征,让模型能够忽略中间语义特征中的无关信息而关注重点信息。最后实验表明,该模型的BLEU和METEOR指标评分比其余模型平均高1.42分和1.61分,验证了模型的有效性。其次,均衡化之后的图像灰度均匀分布在0250之间,PCA重构误差在0.05×10-7左右,侧面说明了该模型在降低特征维度和提高对比度的同时,保留了图像信息。另外,通过注意力可视化,验证了该模型将注意力的焦点聚集在图像的特定区域。