论文部分内容阅读
随着科技的发展,人们从外界接受的信息越来越多,而图像是日常生活中最常见,也是最重要的信息源之一。相较于其他的信息源,图像所能包含的信息量巨大,其复杂、冗余等特性也使得人们对图像信号的处理更加困难。起初,人们受到文本的检索和建模的启发,提出了词袋模型。尽管词袋模型的出现代替了长久以来的人工标记分类的办法,但是词袋模型由于受到特征向量提取和分类器自身存在的问题,图像分类的准确率一直是个难题。随着生物学在人类视觉神经系统的重大突破,研究者希望通过用人工神经网络来模拟人类神经系统来识别图像。近几年来,对深度学习模型的研究使得深层神经网络有了新的进展,成为人工智能领域里的一大热点。本文基于LetNet5卷积神经网络进行了图像识别,通过对其网络模型结构、参数含义、网络层次等进行研究,提高了图像分类识别的准确率。具体来说,首先改进了深度学习网络的激活函数,提高了网络的收敛速度,其次,在增强卷积网络的泛化能力、防止网络过拟合等方面进行了优化,最后,将深度卷积网络模型与支持向量机相结合,构建基于深度卷积网络和支持向量机的混合模型,在通用图像数据集上验证了上述方法的有效性。本文的主要工作及创新点包括:(1)研究分析了常见激活函数Sigmod、tanhx、ReLu、Softplus的优缺点,并融合ReLu和Softplus函数的优点构建了一种新的分段函数作为激活函数,基于深度卷积网络在Cifar-10和Caltech-101这两个图像集上进行验证试验,并分析了各种激活函数对网络的收敛速度和准确率的影响。(2)通过在网络结构中引入Dropout层,解决了深度学习中严重影响网络泛化能力的过拟合问题。Dropout层模仿人类的神经系统,能够随机关闭卷积网络的节点,从而防止过拟合,并且也减少了数据向量的维度,加快运算速度。(3)为了进一步提高网络的泛化能力,本文结合了卷积神经网络和支持向量机的特点,设计了一种新的混合模型,即用卷积神经网络对输入的图像集进行特征的提取,最后一层使用支持向量机进行分类。在MNIST图像数据库上的实验结果验证了该方法的有效性。