基于自编码和正逼近的特征学习算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:heeraigyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,各类数据正在以前所未有的速度被产生,而人们收集数据的方式也是各种各样,因此,数据普遍具有规模大、结构复杂和维数高等特性,这就导致大数据存在以下问题:存在许多与给定任务无关或弱相关的特征,存在许多对于给定任务来说冗余的特征,存在噪音数据等等。如何从海量信息中去除冗余、噪音特征,是特征降维技术研究的主要目标。  深度学习是近年来兴起的一个研究热点,通过组合低层特征形成更加抽象的高层表示,从而学习出原始特征空间的不同粒度的特征表示。本文将深度学习中的自动编码器技术(Autoencoder)与迁移学习技术结合,提出一种面向多源迁移学习的Autoencoder特征学习算法,提出一种可以利用类标信息的面向迁移学习的深度Autoencoder特征学习算法。同时,本文也基于Map/Reduce框架对传统的基于粗糙集理论的特征选择算法进行并行化,从而达到处理大数据的需求。本文的具体创新成果总结如下:  提出了一种基于Autoencoder的特征学习技术,并将其应用于多源迁移学习中。Autoencoder是一种尽可能复现输入信号的神经网络,给定一个神经网络,假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重,Autoencoder的目标是最小化重构误差,能够最大程度的还原输入信号,因此Autoencoder能很好的学习到原始信号的低维表示。本文首先利用Autoencoder对所有领域数据进行特征学习,不同领域共享权值矩阵,实现知识迁移,然后在映射后的空间利用逻辑回归等分类算法训练分类器,并利用一致性约束准则进行约束,保证多个分类器的预测结果尽可能一致。实验结果证明,该模型应用于迁移学习中,可以有效的提高学习效率。  提出了一种可以利用类标信息的基于深度Autoencoder的特征学习技术,并将其应用于迁移学习中。Autoencoder在特征学习上有明显的优势,但是,Autoencoder是一种非监督的特征学习方法,无法利用样本信息,本文中提出一种基于深度Autoencoder的特征学习模型,在该模型中包括两个编码层:第一层用于特征学习,在这一层中,利用KL距离对输出进行约束,保证源领域和目标领域在映射后的特征空间尽可能相似;第二层是类标层,它的节点个数等于类标数,在这一层,引入类标信息,并利用多类回归模型进行约束,保证模型对输入的分类结果尽可能准确,因此,该模型可以很好的处理多类分类问题。实验结果证明,该模型应用于迁移学习中,可以有效的提高学习效率。  基于Hadoop框架,实现一种基于正逼近的特征选择并行算法。基于正逼近的特征选择算法(FSPA)被认为是传统的基于粗糙集的特征选择算法的加速器,FSPA能在保证选取相同的特征子集的前提下,明显的缩减计算时间。但FSPA也是内存常驻的,每次计算特征重要性时都需要扫描整个数据集,然而,在大数据时代,数据普遍具有规模大、结构复杂和维数高等特性,很多传统的基于粗糙集的特征选择算法都无法处理。本文提出一种基于Map/Reduce的并行FSPA算法,实验证明该算法可以高效地处理高维和大规模数据,并具有良好的加速比和伸缩性。
其他文献
当前,多核/众核体系结构已经成为主流架构。然而,多核/众核平台的实际性能与其拥有的资源并不完全匹配,平台可扩展性较差。如何充分利用多核/众核平台上丰富的计算资源成为学术
在多媒体时代,视频是包含信息量最大、最直观的一种信息传播媒介。然而,由于数字视频数据量巨大,必须经过压缩编码才能实现视频的传输、存储和播放。视频压缩编码技术一直是多媒
文本知识获取是知识工程乃至人工智能的关键技术和热门研究课题。文本知识获取的主要目的,就是从非结构化或者半结构化的自然语言文本中,挖掘出结构化的数据,使得机器易于理解,人
随着社会的不断发展进步,IT技术已经逐步渗透到各个传统行业,并在生产实践中扮演越来越重要的角色。从上世纪八十年代开始经过多年的不断发展,信息产业已经成为国家经济发展的主
学位
地面沉降在全球许多地方普遍发生,已经成为全球性的问题。传统的大地测量技术在日益严重的大范围地面沉降监测方面越来越显得难以胜任,而新兴的雷达干涉测量技术正好提供了一
学位
针刺作为一种治疗手段在中国已有三千年的历史。近三十年来针刺正在慢慢的被西方承认和接受。但在国外他仍然是一种辅助医疗手段,与各种安慰治疗措施相当。究其原因还是由于其
软件质量问题是工业界和学术界共同关注的热点问题.软件测试是软件生产质量保障中的一项重要技术,它的主要目的是尽可能地减少程序的错误.本文着重研究了如何将约束求解应用到
学位
近几年,随着人们对环境污染、城市应急资源调度、现代服务设施管理和城市社区功能定位等的需要不断增长,缓冲区分析在交通、林业、资源管理、城市规划、环境与生态保护等领域
集成毛细管电泳芯片具有分析速度快、样品用量少、分离效率高等诸多优点,自问世以来,就得到了人们的普遍关注。在短短十几年内,它迅速发展成为一种有效的分析检测手段,并被认为是