论文部分内容阅读
随着互联网技术的蓬勃发展,各类数据正在以前所未有的速度被产生,而人们收集数据的方式也是各种各样,因此,数据普遍具有规模大、结构复杂和维数高等特性,这就导致大数据存在以下问题:存在许多与给定任务无关或弱相关的特征,存在许多对于给定任务来说冗余的特征,存在噪音数据等等。如何从海量信息中去除冗余、噪音特征,是特征降维技术研究的主要目标。 深度学习是近年来兴起的一个研究热点,通过组合低层特征形成更加抽象的高层表示,从而学习出原始特征空间的不同粒度的特征表示。本文将深度学习中的自动编码器技术(Autoencoder)与迁移学习技术结合,提出一种面向多源迁移学习的Autoencoder特征学习算法,提出一种可以利用类标信息的面向迁移学习的深度Autoencoder特征学习算法。同时,本文也基于Map/Reduce框架对传统的基于粗糙集理论的特征选择算法进行并行化,从而达到处理大数据的需求。本文的具体创新成果总结如下: 提出了一种基于Autoencoder的特征学习技术,并将其应用于多源迁移学习中。Autoencoder是一种尽可能复现输入信号的神经网络,给定一个神经网络,假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重,Autoencoder的目标是最小化重构误差,能够最大程度的还原输入信号,因此Autoencoder能很好的学习到原始信号的低维表示。本文首先利用Autoencoder对所有领域数据进行特征学习,不同领域共享权值矩阵,实现知识迁移,然后在映射后的空间利用逻辑回归等分类算法训练分类器,并利用一致性约束准则进行约束,保证多个分类器的预测结果尽可能一致。实验结果证明,该模型应用于迁移学习中,可以有效的提高学习效率。 提出了一种可以利用类标信息的基于深度Autoencoder的特征学习技术,并将其应用于迁移学习中。Autoencoder在特征学习上有明显的优势,但是,Autoencoder是一种非监督的特征学习方法,无法利用样本信息,本文中提出一种基于深度Autoencoder的特征学习模型,在该模型中包括两个编码层:第一层用于特征学习,在这一层中,利用KL距离对输出进行约束,保证源领域和目标领域在映射后的特征空间尽可能相似;第二层是类标层,它的节点个数等于类标数,在这一层,引入类标信息,并利用多类回归模型进行约束,保证模型对输入的分类结果尽可能准确,因此,该模型可以很好的处理多类分类问题。实验结果证明,该模型应用于迁移学习中,可以有效的提高学习效率。 基于Hadoop框架,实现一种基于正逼近的特征选择并行算法。基于正逼近的特征选择算法(FSPA)被认为是传统的基于粗糙集的特征选择算法的加速器,FSPA能在保证选取相同的特征子集的前提下,明显的缩减计算时间。但FSPA也是内存常驻的,每次计算特征重要性时都需要扫描整个数据集,然而,在大数据时代,数据普遍具有规模大、结构复杂和维数高等特性,很多传统的基于粗糙集的特征选择算法都无法处理。本文提出一种基于Map/Reduce的并行FSPA算法,实验证明该算法可以高效地处理高维和大规模数据,并具有良好的加速比和伸缩性。