论文部分内容阅读
手写数字识别(Handwritten Numeral Recognition)是一个经典的模式识别领域的问题,因其典型性和广泛应用性而具有重大的理论研究价值和应用前景。手写数字识别研究的目标是:利用计算机通过某些算法准确高效地辨认手写体阿拉伯数字。它是手写字符识别的一个热门方向,是光学字符识别技术的一个重要分支。目前的手写数字识别技术主要分为两个步骤,分别是获取图像特征和对特征向量进行分类。基于这个思路,本文首先介绍了提取图像描述子的若干方法,包括SIFT,PCA和HOG方法。SIFT局部特征描述子在进行匹配时可以适应图像间的旋转,平移,仿射变换以及光照变化等多种情况的干扰,匹配能力较强。PCA是指主成分分析,这种方法可以有效找到数据中的最重要元素和结构,对原数据降维,去除冗余和噪音,展现出复杂数据背后的简单结构。HOG描述子是基于局部目标的表现和形状可以被梯度或边缘方向密度分布很好地描述的思想而提出的,它可以计算局部图像梯度的方向信息的统计值,一般作为目标检测的特征描述器。然后在空间金字塔匹配(SPM)的基础上,本文分析了稀疏编码和局部受限线性编码。稀疏编码的统计模型符合视觉神经中的最大化选择原则,已经成功被应用于模拟初级视觉皮层的简单细胞的属性。其主要实现步骤是通过对图像的局部特征进行稀疏表示和局部最大化选择。局部受限线性编码基于局部性的重要作用,通过结合描述子局部性限制,来对目标描述子进行重新表示,得到用于分类的特征向量。论文采用了SVM方法对编码后的特征向量进行分类。SVM是基于统计学理论的VC维理论以及结构风险最小化原则的方法,普遍适用于解决小样本,高维以及非线性的模式识别问题,且展示出相当的优势。近年SVM已经被成功地应用多个领域,例如信号处理和图像识别。实验部分按局部描述子提取,编码和特征向量分类的步骤实现手写数字图像的识别,并通过组合各环节中不同的方法来分析和对比实验效果。最后在训练样本数较小,使用线性SVM的情况下,得出SIFT描述子结合稀疏编码可以获得各组合中最好的效果。