论文部分内容阅读
图像分类是一种利用计算机自主寻找图像所反映的本质特征,将待分类图像划分到不同语义类别中的技术,已成功地应用于交通场景分析、医学图像检索和人脸识别等高层计算机视觉任务。由于图像中包含平移、旋转、尺度缩放、遮挡、光照和非线性形变等外界干扰,导致其类内差异和类间相似性都较大,在很大程度上增加了图像分类的难度。目前,基于卷积神经网络(Convolutional Neural Networks,CNNs)的图像分类算法因能够提取图像的深层鲁棒性特征而受到了广泛关注,但CNNs的良好分类效果源于对大量带标签数据的训练,限制了其在样本稀缺或样本难以标记等场合的应用。针对图像分类所面临的难点和现有分类算法存在的不足,本文主要进行了如下两方面的研究:(1)构建基于双树复小波变换的轻量级散射卷积网络为了能够在样本较少的情况下获得与CNNs相媲美的分类结果,本研究从图像分类所面临的难点问题出发,构建了一种基于双树复小波变换(Dual-Tree Complex Wavelet Transform,DTCWT)的散射卷积网络。首先,将具有多尺度多方向特性的双树复小波滤波器作为预定义卷积核,该卷积核能在提取图像丰富信息的同时避免复杂的训练过程。此外,小波的紧支集特性也为网络带来了非线性形变鲁棒性;其次,为了获得时移不变性,对卷积层输出的复系数进行非线性取模操作,并对取模后的系数进行Log变换以去除异常值的影响;再次,提取卷积层输出系数的相对相位信息,将幅值作为权重来统计相对相位的加权直方图,该操作能够在引入旋转不变性的同时保留幅值信息;最后,将经过正交最小二乘(Orthogonal Least Squares,OLS)降维后的特征送入支持向量机(Support Vector Machine,SVM)进行分类。实验结果验证了本文所构建的散射网络在样本较少的情况下能够获得较好的性能,为数据量稀缺场合的有效分类提供了可能。(2)构建基于Gabor和DCT的轻量级卷积网络Gabor-DCTnet为了进一步提取图像的丰富特征来提高分类网络在人脸识别和纹理分类中的应用效果,在上述研究工作的基础上,本文构建了基于Gabor和DCT滤波器的轻量级卷积网络——Gabor-DCTnet。在卷积层中,首先将级间合成的Gabor滤波器和DCT基进行交叉卷积来获得数量丰富的复滤波器组FBGabor-DCT,之后将FBGabor-DCT作为预定义卷积核来提取图像中丰富的边缘、轮廓和纹理等信息;在非线性层中,对滤波系数进行二值化操作来获得光照鲁棒性,并将二值化后的特征进行哈希编码来进行特征融合和降维。为了获得旋转不变性,对哈希二值化后的特征图进行分块直方图特征提取;在池化层中,对实部和虚部特征进行平均池化和白化主成分分析(white Principal Component Analysis,wPCA)降维来降低计算量并得到更具区分力的特征向量。最后,利用基于余弦距离的最近邻分类方法来进行图像分类。实验验证了本框架在人脸数据集FERET_Ⅰ、FERET_Ⅱ、AR和纹理数据集KTH_TIPS、CUReT上均取得了比PCANet、DCTNet和M-FFC等轻量级网络更佳的分类效果。