特征降维方法研究及其在手写汉字识别中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zlklovey365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写汉字识别是一个典型的模式分类问题,它具有类别多、维数高的特点。目前常用线性判别分析(LDA)方法降维到低维子空间来解决。然而由于汉字识别的类别数(几千类)远大于特征维数(几百维),并且存在着大量的相似类别,使得LDA无法得到一个低维子空间将所有类别完全分开,部分相似字甚至会因为降维产生严重的混叠现象。本文从LDA在汉字识别应用中的局限性出发,面向多类模式分类问题,提出了三种LDA的改进方法。同时。对于全局降维方法无法完全解决的相似字识别问题,提出关键区域特征选择算法来实现高精度的识别效果。主要工作和贡献如下:   ①针对传统LDA算法在多类别情况下造成混叠现象的问题,提出了一种改进的线性判别分析准则(MLDA)。在两步LDA的基础上,嵌入局部特性保持约束,使得在高维空间中离得很近的类别在降维后仍能保持类别间的局部分离性,避免混叠现象的发生。在两个手写汉字数据库上的实验结果表明,我们提出的MLDA算法分类性能优于传统的LDA算法。   ②提出了最差情况下的优化准则最小最大判别分析(MMDA)以降低传统LDA在多类问题降维时产生的混叠问题。MMDA改进了LDA因只考虑全局最优而造成的局部混叠现象,用最小最大准则代替平均最大准则,从而提高了降维后类别间的可分性。对该准则进行合理的松弛后,转化为标准的半正定规划求解问题,同时证明了该松弛后的问题同原问题在一定条件下等价。在UCI、Yale和ORL人脸数据库上的实验结果表明,MMDA在性能上要优于LDA、aPAC、LFDA、LPP等降维方法。   ③针对MMDA算法因复杂度过高无法直接应用于大类别集汉字识别的问题,提出了MMDAOnline快速算法。MMDAOnline算法是在MMDA中加入松弛变量,用基于随机梯度的Online算法代替MMDA中半正定规划求解,即每一次只使用一组类中心对更新投影矩阵。同时通过限制更新类中心对的候选个数以减少不必要的更新过程,从而进一步减少训练时间。从UCI、USPS到手写汉字识别和相似字识别等大量实验结果表明,MMDAOnline算法及其加速算法在性能和速度上具有优越性。   ④区别于以前的关键区域选择方法,我们从特征选择角度出发,提出了基于关键区域特征选择的相似字判别算法。该算法利用互信息来自动寻找相似字间的不相似区域,然后利用这些不同区域的特征来学习两类分类器。这样做的好处是一方面减少了分类器在高维空间学习的参数开支,另一方面因为去除了那些可能带来噪声的区域特征,从而得到更高的分类精度。同时,我们根据大类别集分类器在训练样本上的输出从统计意义上找相似字对,从而尽可能多地找到那些真正可以提高精度的相似字。实验结果表明,我们的算法从精度和计算速度上都得到了提高。
其他文献
试井是油藏工程的重要手段,而其核心是压力试井,因此地层压力测量是石油试井技术中必不可少的工作。目前国内油田多使用电子压力计来实现压力数据的采集、存储和数据浏览的功能
作为一种非侵入式的交互接口,基于视觉的动态手势识别可以实现自然、方便的人与机器人交互(Human-robot Interaction,HRI),简称人机交互。近年来,随着一次学习(One-shot Learning
水下机器人是一种很重要的水下探测调查器,利用水下机器人可在海洋深处直接进行海洋生物、物理、化学和地质等科学考察活动,可以在深海勘测地形、地貌、采集海底样品,支持海洋工
基于内容的多媒体信息检索是当今多媒体分析和处理领域的一个重要研究方向。它通过计算用户提交的查询实例与数据库中实例的内容相似度,对数据库中的实例进行自动排序,从而使用
控制系统性能的优劣直接影响工业生产经济效益的高低,甚至关系着整个工业生产的安全问题。在影响控制系统性能的众多因素中,控制器参数是不可忽略的主要原因。在实际工业过程
随着现代控制系统的结构越来越复杂,对其各部件的可靠性、准确性的要求也越来越高,从而出现了故障诊断与容错控制技术,并且在航空、航天、机器人、工业过程等领域已经取得了
口语发音的自动检错和诊断是计算机辅助语言学习和测试领域的关键技术之一。本文在深入分析现有技术的发展现状和总结前人已有成果的基础上,面向大规模人群口语测试的应用背景
抑郁症是一种以心境障碍为主的精神障碍疾病,发病率约为6.1%且呈逐年上升趋势,给家庭和社会造成极大负担,但其诊断正确率偏低,误诊率偏高。基于脑功能连接的多元模式分析是抑郁症
学位
随着经济的发展,人们生活水平的不断提高,各种服务机器人应运而生。目标跟踪技术是实现服务机器人与使用者友好交互的关键环节。各种跟踪算法和理论在视频图像序列的目标跟踪