论文部分内容阅读
                            
                            
                                形状信息是物体最直观、重要的描述,其表示与识别是计算机视觉领域的基本问题。然而真实世界的形状往往存在各种变化,包括噪声、形状变形、遮挡和同类形状间的差异等。这些变化给传统基于手工特征如形状上下文、形状签名等的形状表示和识别方法带来很大的挑战。近年来,随着深度学习相关技术的突破性发展及广泛应用,利用深度网络来进行形状的表示及识别成为一个新兴研究内容。不过,在二维形状相关的应用场景中,深度网络的发展目前还存在一些问题。第一,具备标签的二维形状数据往往是有限的,仅可用于训练浅层的神经网络,而浅层网络表示能力有限,实验中识别准确率不高;第二,现有方法多数为自行构建的网络,其网络参数及实验结果一般较难复现,限制了这些方法的推广和应用;第三,数据增强是一种防止网络参数过拟合、提高识别准确率的有效方法,不过目前缺少针对于二维形状的数据增强方法。所以,如何在有限训练样本的前提下,利用深度神经网络模型解决二维形状数据的分析和识别,是值得进一步深入研究的课题。为了有效提高二维形状的识别准确率,本文基于卷积神经网络强大的特征提取和识别能力,结合迁移学习技术,提出了一种新型的二维形状识别模型TL-CNN。在TL-CNN的训练过程中,通过冻结深度卷积网络特征提取层的参数,防止了有限训练样本引起的过拟合问题。同时,为了进一步提高网络的泛化能力,本文提出了针对于二维形状的数据增强技术,可以有效应对二维形状分析和识别过程遇到的噪声、平移、旋转、镜像变换和遮挡等问题。具体地,本文基于提出的TL-CNN网络模型,构建了两种二维形状识别网络模型TL-AlexNet和TL-VggNet-16,并训练其参数以适应于二维形状的识别。此外,本文提出了4种新型的形状数据增强方法:距离场、离散曲线演化、膨胀和腐蚀,并结合传统的增强方法给出了不同数据增强技术对于形状识别结果的影响。为了验证提出的TL-CNN模型的性能,本文选取三个公开的形状数据集MPEG-7、Animal和ETH-80进行实验,并与深度学习中的多种典型网络和传统的机器学习方法的识别准确率进行对比。在三个数据库及多种参数组合下的实验结果均表明,TL-AlexNet和TL-VggNet-16取得了比其它方法更高的识别准确率,说明了本文提出的基于迁移学习的二维形状识别框架的有效性及高鲁棒性。同时,本文也进一步给出了所提出的数据增强方法的详细实验分析。实验结果表明,上述数据增强方法可以有效提高网络的泛化能力和形状识别性能。