论文部分内容阅读
随着深度学习在诸多应用领域不断地取得着巨大的成功,其应用成果也直观地影响着人们对以深度学习为核心要素的人工智能有了更新的认知与理解,但这些应用成果背后的深度学习理论研究则举步维艰。当前,无论是工程应用还是理论分析,与稀疏深度学习相关的研究已经越来越多。特别是,随着稀疏特性融入网络的方式呈现多样性,稀疏深度学习这一有效的计算模式在实践应用中取得了显著的效果,但仍有许多的研究难点。从网络的架构,模型的优化以及模型的压缩等角度来看,稀疏深度学习的研究难点主要包括以下六个方面,一是沿用经典的栈式思维,由浅层可解释性模型以堆栈的方式构建的深度可解释性模型通常可满足较好的可解释性,但模型的可微性与稳定性较差,并且在一些复杂的视觉任务上,其泛化性能若要媲美深度可微分系统仍需要质的提升;二是稀疏深度学习仍采用误差反向传播为思想的梯度下降策略来优化更新网络的参数,虽然有一些优化技巧可以有效地缓解梯度消失问题,但本质上,设计避免局部极值和鞍点的高效优化算法仍是有待解决的难题;三是稀疏性虽然有助于深度网络的压缩,但如何利用稀疏深度学习来进一步探索过拟合缺失问题的本质,是目前研究的一个难点;四是在深度学习模型中嵌入稀疏性的方式种类繁多,虽然模型的稀疏化有诸多优势,但过度的稀疏性也常会导致模型的稳定性变差,进而导致网络的泛化性能降低,如何合理地在深度学习模型中引入稀疏性以解决网络模型的稳定性问题是当前研究的难点之一;五是如何利用稀疏深度学习中隐层输出的稀疏特征的特性(如衰减特性,谱特性等)来分析网络的泛化性能以及鲁棒性成为有待解决的难题;六是随着网络层级的加深,用于重构任务的有效信息不断地丢失或被遗弃,如何设计一个可用于分解与重构任务的稀疏深度学习框架是目前研究的一个难点。
另外,众所周知,经典的深度可微分系统依赖基于误差反向传播的梯度下降算法获得了巨大的成功,无论是从泛化性能,还是模型的稳定性上,都较传统的机器学习模型有了质的飞跃。目前,深度可微分系统仍不能系统地对模型的可解释性作出合理性的回答。在这样的背景下,本文针对上述的部分难点问题做了较为系统性的理论研究与分析,更为具体的理论与应用性创新性贡献分别如下:
1.针对网络的架构以及模型的优化,提出了一种快速稀疏深度神经网络,旨在为深度神经网络的学习与优化提供一种可替代的训练方法。该网络模型的设计包括以下两个方面:一是利用凸优化下对应的闭形式解给出每一隐层下的参数优化学习,这与采用迭代更新策略的误差反向传播算法不同;另一个方面是利用多层线性求和的方法来逼近输出目标,这与现有的深度神经网络不同。特别是,提出的快速稀疏深度神经网络无需精调即可获得良好的泛化性能。
2.针对小样本学习任务,提出了一种稀疏深度组合神经网络。其优势在于层级优化机制能够独立地通过解决凸优化问题来实现对每个隐藏层的参数学习。该网络框架可分为三个部分:一是使用基于InfoGAN的组合机制生成样本;二是采用数据学习来解决样本的复杂性;三是采用稀疏深度组合神经网络对多路径层进行快速高效的计算。另外,该网络的设计基于极限学习机的思想,对它的改进也是本章研究的一部分。实验已证实:基于InfoGAN的样本组合机制,生成样本的质量随着组合数的增加趋向越来越好。
3.与经典的无监督逐层学习方式不同,我们考虑到了利用逐层有监督的方式来逐层预训练,提出了稀疏深度堆栈网络框架。该框架包括稀疏深度栈式极限学习机和稀疏深度张量极限学习机。对于稀疏深度栈式极限学习机,网络的设计沿两个部分展开:一是受极限学习机的启发,设计了一种稀疏单隐层多通路极限学习机,其优势可以在隐藏节点数相对少的情况下,以较快的速度实现较高的泛化性能;二是将稀疏单隐层多通路极限学习机以堆栈的方式形成稀疏深度栈式极限学习机。对于稀疏深度张量极限学习机,通过张量运算可有效地减少隐层参数的个数,进一步帮助网络完成较高的泛化性能。
4.为了充分利用类别先验信息来改善深度网络中每一个隐层上特征的判别能力,提出了一种稀疏深度判别神经网络模型,其目的是形成逐层逐类更为紧致的特征表示。具体来说,我们分别利用字典对学习和稀疏表示分类器来提升稀疏深度神经网络中各隐层的判别能力,其中隐层特征的判别能力体现在类内一致性与类间的差异性上。与现有的深度堆栈自编码网络和深度置信网络相比,所提出的网络具有更快的算法运行速度以及收敛特性,隐层的判别能力促使稀疏深度网络的泛化性能在多种分类任务中更具较强的竞争力。
5.为了设计一个用于分解与重构机制下的稀疏深度学习模型,我们提出了稀疏深度差分神经网络。相比经典的深度学习系统,层级抽象特性是具有某种相关性的,从整体上难以认识并对深度学习的网络作出合理的可解释分析。而我们提出的稀疏深度差分网络框架首次引入差分特征的概念,以替代通常将抽象特征作为输入的有效表达这一经典的特征学习模式,通过逐模块差分学习,使得网络整体或端到端上的可解释性分析演变为更为容易的局部化分析。并且这一设计方式可方便的延拓至经典的深度学习系统中,与传统线性分解重构的Mallat算法不同,层级差分特征这一概念的引入为深度学习系统提供了一种非线性分解重构的思路,并给出了输入另一种有效的表达方式。
另外,众所周知,经典的深度可微分系统依赖基于误差反向传播的梯度下降算法获得了巨大的成功,无论是从泛化性能,还是模型的稳定性上,都较传统的机器学习模型有了质的飞跃。目前,深度可微分系统仍不能系统地对模型的可解释性作出合理性的回答。在这样的背景下,本文针对上述的部分难点问题做了较为系统性的理论研究与分析,更为具体的理论与应用性创新性贡献分别如下:
1.针对网络的架构以及模型的优化,提出了一种快速稀疏深度神经网络,旨在为深度神经网络的学习与优化提供一种可替代的训练方法。该网络模型的设计包括以下两个方面:一是利用凸优化下对应的闭形式解给出每一隐层下的参数优化学习,这与采用迭代更新策略的误差反向传播算法不同;另一个方面是利用多层线性求和的方法来逼近输出目标,这与现有的深度神经网络不同。特别是,提出的快速稀疏深度神经网络无需精调即可获得良好的泛化性能。
2.针对小样本学习任务,提出了一种稀疏深度组合神经网络。其优势在于层级优化机制能够独立地通过解决凸优化问题来实现对每个隐藏层的参数学习。该网络框架可分为三个部分:一是使用基于InfoGAN的组合机制生成样本;二是采用数据学习来解决样本的复杂性;三是采用稀疏深度组合神经网络对多路径层进行快速高效的计算。另外,该网络的设计基于极限学习机的思想,对它的改进也是本章研究的一部分。实验已证实:基于InfoGAN的样本组合机制,生成样本的质量随着组合数的增加趋向越来越好。
3.与经典的无监督逐层学习方式不同,我们考虑到了利用逐层有监督的方式来逐层预训练,提出了稀疏深度堆栈网络框架。该框架包括稀疏深度栈式极限学习机和稀疏深度张量极限学习机。对于稀疏深度栈式极限学习机,网络的设计沿两个部分展开:一是受极限学习机的启发,设计了一种稀疏单隐层多通路极限学习机,其优势可以在隐藏节点数相对少的情况下,以较快的速度实现较高的泛化性能;二是将稀疏单隐层多通路极限学习机以堆栈的方式形成稀疏深度栈式极限学习机。对于稀疏深度张量极限学习机,通过张量运算可有效地减少隐层参数的个数,进一步帮助网络完成较高的泛化性能。
4.为了充分利用类别先验信息来改善深度网络中每一个隐层上特征的判别能力,提出了一种稀疏深度判别神经网络模型,其目的是形成逐层逐类更为紧致的特征表示。具体来说,我们分别利用字典对学习和稀疏表示分类器来提升稀疏深度神经网络中各隐层的判别能力,其中隐层特征的判别能力体现在类内一致性与类间的差异性上。与现有的深度堆栈自编码网络和深度置信网络相比,所提出的网络具有更快的算法运行速度以及收敛特性,隐层的判别能力促使稀疏深度网络的泛化性能在多种分类任务中更具较强的竞争力。
5.为了设计一个用于分解与重构机制下的稀疏深度学习模型,我们提出了稀疏深度差分神经网络。相比经典的深度学习系统,层级抽象特性是具有某种相关性的,从整体上难以认识并对深度学习的网络作出合理的可解释分析。而我们提出的稀疏深度差分网络框架首次引入差分特征的概念,以替代通常将抽象特征作为输入的有效表达这一经典的特征学习模式,通过逐模块差分学习,使得网络整体或端到端上的可解释性分析演变为更为容易的局部化分析。并且这一设计方式可方便的延拓至经典的深度学习系统中,与传统线性分解重构的Mallat算法不同,层级差分特征这一概念的引入为深度学习系统提供了一种非线性分解重构的思路,并给出了输入另一种有效的表达方式。