大规模机器学习:矩阵低秩近似与在线学习

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lengningyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文我们将探讨两种适合大规模计算的框架——矩阵的低秩近似和在线学习——来解决机器学习中的两个重要问题:非监督学习与监督学习。对大规模矩阵进行特征值分解是在非监督学习中最经常遇到的问题,例如核主成分分析,谱聚类。但是其三次方的算法复杂度阻碍了其在大规模数据集上的应用。另一方面,支持向量机是在监督学习中是最常用的方法。在大规模数据集中,稀疏性规约通常用来保证模型不会过拟合。然而,稀疏性规约的加入则使得优化算法异常复杂。Nystr?m方法是一个有效的对大规模核矩阵进行特征值分解的手段。但是,为了保证足够的的近似精度,Nystr?m方法需要从核矩阵中采样足够多的列。而在大数据集上,作用在采样的子矩阵上的SVD算法会很快凸显出耗时的缺点,以致于严重到影响Nystr?m方法的效率。在这篇文章里,我们通过使用一个近似的奇异值分解算法来对Nystr?m方法进行改进,使其可以被高效地应用在超大规模的数据集上。理论分析表明该改进后的算法和标准的Nystr?m方法一样精确。一系列在大规模数据集上的测试验证了该算法的以上特性。此外,我们还将其从在CPU上运行扩展到了在GPU上运行,从而使得8百万8百万的核矩阵可以在1分钟之内被很好的近似。Nystr?m方法的一个重要应用是在谱聚类上。然而,当数据量足够大时,谱聚类处理和存储采样列的代价仍然非常昂贵。在这篇文章里,我们提出了一个在时间和空间上同时高效的算法,使得谱聚类可以被应用在超大规模数据集上。同时被提出的还有一个一般化的正交化方法,该方法用于正交化近似得到的特征向量。我们对大量的规模从数万到数百万的数据集,进行了谱聚类实验,来测试并验证了该算法的准确和高效。更进一步,我们将其应用到图片分割上。该算法可以在1台机器上,于1分钟之内,处理千万像素的图片。多样例学习是一个最近提出的监督学习框架,与传统的监督学习相比,前者能处理模糊的标号。一般来说,多样例学习被应用在离线的学习框架下。但是,诸如物体跟踪等应用并不能作用于离线框架下。因此,在基于已有成功应用的离线多样例学习算法MILES上,我们提出了一个在线的多样例学习算法。其通过在线的方法来对一个有稀疏性规约的支持向量机求解。该算法有的(累计)后悔量上界,即,能很快收敛,且该算法性能达到了最佳解法;这里表示迭代次数。算法的有效性在多样例分类和物体跟踪实验中被证明。
其他文献
安全性保证数据传输的真实性、机密性、数据的完整性、身份认证及交易的不可抵赖性。智能卡作为一种个人信息的载体,具有方便、灵活、耐用和安全的特点,它的引入避免了早期应用
随着Web服务个数和种类的增多,服务组合成为了面向服务领域的一个关键问题。由于服务个数和种类的增加,在服务组合过程中不可避免的要涉及服务的选择,以选出优质的服务组合。
RoseRea1Time是Rational公司最新推出的支持实时统一建模语言(UML-RT)的可视化的建模工具,但其本身是一个通用的面向对象的分析、设计工具,缺乏对特定领域的支持。本文的主要工作
该文在系统地介绍了信息检索的基本原理、常用的数学模型、系统评价方法、发展历史和趋势之后,对Internet网上信息检索的主要方法及存在的问题进行了综述,分析检索性能的原因
该文实现的以BSP模型为并行计算模型的并行对象-关系数据库系统PORLES,不但保留了关系数据库系统的许多成熟技术,也满足了复杂数据对象应用的需要,它支持复杂数据类型以及对
该文在详细分析了计算机联锁系统的输入-输出集,特别是危险侧输出集的基础上,针对联锁软件的可靠性和安全性提出一种基于黑箱测试方法的测试策略.并以此为指导,构建了一个对
该论文主要研究了局域网中的登录和身份认证.首先就该课题将要用到的几种算法,作了详尽的介绍.然后就该文将要用到的几种协议:Kerberos第三方仲裁协议、SSL安全套接层协议、E
随着计算机技术的广泛应用,对分布式并行操作系统的需求越来越大。分析当前国内外操作系统的发展趋势,我们迫切需要开发一个分布式并行操作系统。因此,本课题以开放源码的Linux
该文从国内外EDI安全发展的现状出发,结合目前流行的PKI(PublicKeyInfrastructure,公钥体系基础设施)技术,提出了一套包括加密、数字签名、认证、密钥管理等技术的EDI安全解
为了适应综合业务与宽带业务的普及,对于混合任务分配及调度问题,国内外已提出了许多可行的方案和算法.目前,单机系统上的调度策略已接近理想化,多处理机系统调度策略还存在