求解非凸优化问题的一类带动量步的随机方差缩减算法

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:yilishabai123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  DOI:10.16660/j.cnki.1674-098X.2106-5640-0582
  摘  要:本文研究一类非凸有限和问题,求解该类问题比较常用的方法是随机方差缩减算法。在随机方差缩减算法的基础上,考虑到动量步能够提升算法的求解效率,将动量步与随机方差缩减算法相结合,提出了一类带动量步的随机方差缩减算法。给出了该算法的具体迭代格式,并对该算法进行收敛性分析,证明了该算法在非凸情况下的次线性收敛率。
  关键词:方差缩减 经典动量 非凸优化 小批量
  中图分类号:TP181                           文献标识码:A                 文章编号:1674-098X(2021)06(b)-0078-04
  A Class of stochastic variance reduction algorithms for nonconvex optimization problems with momentum steps
  XIE Xiaolei  YANG Yi
  (Nanjing University of Information Science and Technology, Nanjing, Jiangsu Province, 210044 China)
  Abstract: This paper studies a class of nonconvex finite sum problems. The commonly used method to solve this kind of problems is random variance reduction algorithm. Based on the random variance reduction algorithm, considering that the momentum step can improve the solution efficiency of the algorithm, we combine the momentum step with the random variance reduction algorithm, and propose a kind of random variance reduction algorithm driven by the quantity step. We give the specific iterative format of the algorithm, analyze the convergence of the algorithm, and prove the sublinear convergence rate of the algorithm in the case of nonconvex.
  Key Words: Variance reduction; Classical momentum; Nonconvex optimization; Minibatch
  1  引言
  1.1 已有算法
  本文主要研究非凸有限和形式問题,其格式如下
  (1)
  其中,,为非凸函数,且▽f,▽fi为Lipschitz连续。这一类有限和问题在机器学习的过程中有着广泛应用[1-6],同时机器学习也被广泛应用在计算机视觉、语音识别及数据挖掘等领域中[3]。
  解决这类问题最经典的方法是梯度下降算法,全梯度下降(FGD)[7],其算法迭代格式如下:
  其中,为第t轮迭代的学习率,n为样本总数。当目标函数f为强凸函数时,FGD能够达到线性收敛速度;当目标函数f为非凸函数时,FGD能达到次线性收敛速度。
  考虑本文n比较大,为减少计算量,有人提出随机梯度下降法(SGD),在每一轮进行更新参数时,只会随机选择一个样本来计算梯度以此来代替整个梯度估计值,其算法迭代格式如下:
  其中,表示第t轮迭代中随机等概率的选取一个指数。不仅参数更新过程简单而且还不会线性依赖于样本总数,当目标函数为非凸和强凸函数时,达到次线性收敛。此外,有人提出在每次更新时随机选取个样本,即小批量随机梯度下降法[8]。将它们的平均值代替成为整个梯度的估计值。其更新公式为:
  在SGD中,我们假设单个样本梯度是整个样本梯度上无偏估计,但因梯度方差存在,所以仅当学习率逐步递减并趋于0时,SGD能够达到收敛。但若学习率过小,整个迭代过程会很慢。
  为解决上述问题,有人提出“方差缩减”,这是构造一些特殊的梯度估计量,让每轮的梯度方差有一个不断缩减的上界,这样即使学习率不是很小也能较快收敛。其中最常用的是基于方差缩减的随机梯度下降算法(SVRG)[9]。该算法是每轮外迭代时会进行一轮内迭代;在进行内迭代前,先用当前计算全部样本的平均梯度内部迭代的初始值被赋值给当前的。内部迭代中每次迭代梯度为:
  可以将视为梯度估计的偏差。因此,在每次迭代中,算法都对基于当前参数作的梯度估计进行修正。它可以达到强凸函数下线性收敛凸函数下次线性收敛的结果,将其推广到非凸函数,可以得到期望意义下梯度的次线性收敛[10]。
  1.2 加速方法
  已有学者在SGD基础上提出一种加速算法收敛的方法:动量法(CM)[10]。这是一种帮助SGD在相关方向上抑制摇摆并且进行加速的一种方法。此外动量法(CM)在进行参数更新的时候,还利用当前批量以此微调最终的更新方向,同时也一定的程度上保留之前的更新方向,也就是相当于通过积累先前的动量以此来加速当前的梯度,其更新公式为:   其中为动量项,当=0时,这个方法就变为了SGD。因此,才能减少摇摆,从而得到更快收敛速度[11]。
  1.3 本文工作
  于是考虑到经典动量能够提升算法的求解效率,本文将SVRG与经典动量的技巧结合,提出一种求解非凸优化的一类带动量步的随机方差缩减算法(SVRG-CM),并给出算法收敛性分析,证明在求解非凸问题时,算法可以达到次线性收敛率。
  本文的其余部分安排如下:在第二部分中,将介绍一些预备知识;在第三部分中,我们将会给出算法,并对所给算法进行收敛分析。最后第四节总结全文。
  2  预备知识
  为讨论算法收敛性,下面介绍一些本文涉及的符号以及定义。首先对文中用到的符号做出如下定义: d为欧几里得空间,表示向量内积,表示欧氏范数。
  引理2.1[12]:令函数f:d→以及梯度f(L- Lipschitz)连续,那么对任意的,有:
  定义2.2:是L-光滑的,即。
  定义2.3:如果,则称点x为稳定点;如果,则可以获得期望意义下的-稳定点。
  3  收斂分析
  本节将给出相应算法,并给出其收敛结果和收敛分析。
  SVRG-CM算法如下。
  该算法中,是本地更新公式的随机经典动量的参数,这里,本文算法与SVRG的唯一区别就是多一个动量项[13-14],即:
  通过积累先前的动量来加速当前的梯度,最终达到加速收敛的效果。小批量的处理通常用于减少随机梯度的方差并增加并行度[15]。下面我们提供非凸情况下SVRG-CM结果的证明,为简便书写,这里令,在同一个内循环中省略上标,这里默认是在第s+1层外循环中进行的迭代更新。先给出以下引理。
  引理3.1:假设是算法1产生的迭代点列,则有以下不等式成立:
  引理3.2:假设,是算法1产生的迭代点列,则有以下不等式成立:
  引理3.3:定义,假设对和,令,有:
  并且参数被恰当的选择
  使得。
  则带有小批量大小为b的算法1产生的迭代点满足以下不等式:
  定理3.1:令
  使得。定义,设T为m的倍数,对于算法1中的输出,有以下不等式成立:
  其中为(1)的最优解。
  4  结语
  本文根据方差缩减的随机梯度下降算法,提出针对非凸优化问题的一种带动量步的随机方差缩减算法,该算法较之SVRG是在内循环更新梯度时使用经典动量方法,来提升收敛效率,在一些函数光滑性假设下,本文得到非凸情况下该算法的次线性收敛,并提供收敛证明。本人认为,将动量与方差缩减结合可以很好地进行非凸优化。
  参考文献
  [1] Jordan M., Mitchell T.Machine learning: Trends, perspectives, and prospects[J].Science,2015, 349(6245):255-260.
  [2] 林懿伦,戴星原,李力,等.人工智能研究的新前线:生成式对抗网络[J].自动化学报,2019,44(5):775-792.
  [3] 史加荣,王丹,尚凡华,等.随机梯度下降算法研究进展[J/OL].自动化学报,2019.
  [4] Bottou L., Curtis F. https://doi.org/10.16383/j.aas.c190260.Optimization methods for large-scale machine learning[J].Siam Review, 2016,60(2):223-311.
  [5] Liu S., Deng W. Very deep convolutional neural network based image classification using small training sample size[C].IEEE,2016.
  [6] Shamir O.Convergence of stochastic gradient descent for PCA[J].Mathematics,2016,257-265.
  [7] Nesterov Y.Gradient methods for minimizing composite functions[J].Mathematical Programming,2013,140(1):125-161.
  [8] Mu L. Efficient mini-batch training for stochastic optimization[C].ACM, 2014,661-670.
  [9] Reddi S., Hefny A., Sra S., et al.Stochastic variance reduction for nonconvex optimization[J]. JMLR,2016.
  [10] Qian N.On the momentum term in gradient descent learning algorithms[J].Neural Networks, 1999,12(1):145-151.
  [11] Ruder S.An overview of gradient descent optimization algorithms[J].ArXiv,preprint arXiv:2016,1609.04747v2.
  [12] Nesterov Y.Introductory lectures on convex optimization: A basic course[M].Springer,2004.
  [13] 张弛,高雨佳,刘亮.一种适用于联邦学习的分布式Non-IID数据集生成方法[J].2021.
  [14] Keith A J, Ahner D K.A survey of decision making and optimization under uncertainty[J].  2021.
  [15] 朱小辉,陶卿,邵言剑.一种减小方差求解非光滑问题的随机优化算法[J].软件学报,2015,26(11):2752-2761.
其他文献
DOI:10.16660/j.cnki.1674-098X.2107-5640-6528  摘 要:二氧化碳爆破技术作为一种新型爆破技术,相比工业炸药和雷管,在生产工艺和使用安全上有着明显的区别。同时作为核心部件的二氧化碳致裂器用激发管,其主要功能是为液态二氧化碳提供气化所需要的热量。但是目前国内二氧化碳致裂器用激发管发展质量参差不齐,大部分激发管所使用的药剂都是采用高敏感度的烟火药剂,有较大的危
DOI:10.16660/j.cnki.1674-098X.2107-5640-3389  摘 要:本文以N-异丙基丙烯酰胺(NIPAM)为结构框架和温敏性单体、聚多巴胺(PDA)为粘附性单体、聚乙烯醇(PVA)和明胶(GEL)为成胶单体,调节多巴胺的含量,制备出温敏性纳米水凝胶。作为具有低临界溶解温度(LCST)的温敏性聚合物,聚异丙基丙烯酰胺(PNIPAM)水凝胶的透光度表现出温度敏感性。粘附
DOI:10.16660/j.cnki.1674-098X.2107-5640-2756  摘 要:核电站系统的复杂性要求电站操作人员必须掌握一套系统的诊断技术知识和技能,以应对和处理各种复杂的异常工况,只有这样才能保证核电厂持续安全稳定运行。本文将从诊断与决策的含义、重要性、使用方法等方面全面介绍诊断与决策技能,并利用多年的模拟机教学经验,以电站除氧器液位异常为例,重点阐述操纵员在电站系统发生异
DOI:10.16660/j.cnki.1674-098X.2106-5640-7897  摘 要:石墨烯集卓越的力学性能、电学性能和导热性能于一体,具有使能和助力诸多颠覆性技术的潜力。本文从文献计量学的角度,利用信息可视化软件VOSviewer对石墨烯在核工业中的应用相关研究文献的热点国家、研究机构、学科分布,以及共被引文献和前沿进行分析,并对重要作者和机构进行了分析比对。经过研究分析,得出石墨
DOI:10.16660/j.cnki.1674-098X.2106-5640-8939  摘 要:在电力企业发展进程中,电力物资管理十分关键和重要,有效的管理不僅可以促进电网的科学规划,同时还可以确保电力企业对电力物资的采购、使用以及储备管理等进行全面控制。基于此,本文主要分析电力企业电力物资管理对电网规划的重要作用,并进一步阐述当前电力企业电力物资管理现状,最后探讨在强化电网规划下电力企业电力
DOI:10.16660/j.cnki.1674-098X.2107-5640-7203  摘 要:在空降作战中,快速集结是部队的一项重要能力,能大幅提高队伍的生存率和战斗力。GPS在战斗中易受干扰无法使用。本文在禁用GPS的条件下,针对快速集结中的快速定位问题,设计一款结合无线电测向、激光测距的电子罗盘系统,该系统采用HMC5883L三轴磁阻传感器测量载体三个轴的磁场强度,采用MPU6050加速
DOI:10.16660/j.cnki.1674-098X.2107-5640-3109  摘 要:市场经济的进步让我国经济体制也随之被带动,而经济快速增长的同时,也给人力资源管理带来了各种各样的难题。而且这方面的挑战存在于大部分国家的机关事业单位中,我国也不例外,未更新的发展理念和传统的管理模式,已跟不上时代和经济发展的脚步,所以各大机关事业单位必须想法设法地解决这方面存在的问题,本文就目前机关
新时期,各地方政府正在面临一种全新的危机形式——公共舆论危机。伴随媒体与网络技术的不断发展,社会逐渐进入新媒体时代,信息的传播渠道以及方式都产生了重大变化,为广大民众表词达意提供了更加便利的条件。这些变化给政府在公共舆论引导方面带来了新的机遇,同时也为政府应对公共舆论危机带来全新的挑战。当前我国正处在社会转型、改革不断深化以及发展升级的特殊时期,风险治理形势相对严峻,公共舆论危机也层出不穷。政府能否及时发现问题,对公共舆论危机加以有效治理,这不仅涉及到政府自身的权威和公信力,也与广大民众的普遍利益息息相关
DOI:10.16660/j.cnki.1674-098X.2106-5640-5291  摘 要:在化学反应工程讲授过程以实际案例讲解课程的理论知识可以有效地调动学生学习的积极性,培养学生的知识运用及创新能力,其中在非均相反应动力学模型分析和推导过程中,以碱浸出矿物中的有价元素为例,该反应属于液固非均相反应,其反应机理常可采用界面反应模型中的收缩未反应芯模型进行描述,同时该反应的反应速率受内扩散
摘 要:极限是数学分析这门课程的研究工具,是贯穿整门课程的知识点。其中数列极限的计算是数学分析学习中的重要内容,也是各种上岗考试和研究生入学考试的重要考点。在极限的计算中,一类带有“n!”的数列的极限一直以来是计算的难点。该文就这一类带有“n!”的数列极限的计算展开讨论,从学生已有的知识结构出发,给出了几个行之有效的计算方法。  关键词:数列极限 迫敛性 级数 定积分 极限定义  中图分类号:O1