期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄鉴之陇盛陶卿《模式识别与人工智能》2021,34(2):137-145

同时使用自适应步长和动量两种优化技巧的AMSGrad在收敛性分析方面存在比自适应步长算法增加一个对数因子的问题.为了解决该问题,文中在非光滑凸情形下,巧妙选取动量和步长参数,证明自适应策略下Heavy-Ball型动量法具有最优的个体收敛速率,说明自适应策略下Heavy-Ball型动量法兼具动量的加速特性和自适应步长对超... 相似文献

2.

Heavy-Ball型动量方法的最优个体收敛速率

程禹嘉陶蔚刘宇翔陶卿《计算机研究与发展》2019,56(8):1686-1694

动量方法作为一种加速技巧被广泛用于提高一阶梯度优化算法的收敛速率.目前,大多数文献所讨论的动量方法仅限于Nesterov提出的加速方法,而对Polyak提出的Heavy-ball型动量方法的研究却较少.特别,在目标函数非光滑的情形下,Nesterov加速方法具有最优的个体收敛性,并在稀疏优化问题的求解中具有很好的效果.但对于Heavy-ball型动量方法,目前仅仅获得了平均输出形式的最优收敛速率,个体收敛是否具有最优性仍然未知.对于非光滑优化问题,通过巧妙地设置步长,证明了Heavy-ball型动量方法具有最优的个体收敛速率,从而说明了Heavy-ball型动量方法可以将投影次梯度方法的个体收敛速率加速至最优.作为应用,考虑了l\\-1范数约束的hinge损失函数优化问题.通过与同类的优化算法相比,实验验证了该理论分析的正确性以及所提算法在保持稀疏性方面的良好性能. 相似文献

3.

非光滑凸问题投影型对偶平均优化方法的个体收敛性

曲军谊鲍蕾陶卿《模式识别与人工智能》2021,34(1):25-32

对于一般凸问题,对偶平均方法的收敛性分析需要在对偶空间进行转换,难以得到个体收敛性结果.对此,文中首先给出对偶平均方法的简单收敛性分析,证明对偶平均方法具有与梯度下降法相同的最优个体收敛速率Ο(lnt/t).不同于梯度下降法,讨论2种典型的步长策略,验证对偶平均方法在个体收敛分析中具有步长策略灵活的特性.进一步,将个体收敛结果推广至随机形式,确保对偶平均方法可有效处理大规模机器学习问题.最后,在L1范数约束的hinge损失问题上验证理论分析的正确性. 相似文献

4.

线性插值投影次梯度方法的最优个体收敛速率

陶蔚潘志松朱小辉陶卿《计算机研究与发展》2017,54(3):529-536

投影次梯度算法(projected subgradient method, PSM)是求解非光滑约束优化问题最简单的一阶梯度方法,目前只是对所有迭代进行加权平均的输出方式得到最优收敛速率,其个体收敛速率问题甚至作为open问题被提及.最近,Nesterov和Shikhman在对偶平均方法(dual averaging method, DAM)的迭代中嵌入一种线性插值操作,得到一种拟单调的求解非光滑问题的次梯度方法,并证明了在一般凸情形下具有个体最优收敛速率,但其讨论仅限于对偶平均方法.通过使用相同技巧,提出了一种嵌入线性插值操作的投影次梯度方法,与线性插值对偶平均方法不同的是,所提方法还对投影次梯度方法本身进行了适当的修改以确保个体收敛性.同时证明了该方法在一般凸情形下可以获得个体最优收敛速率,并进一步将所获结论推广至随机方法情形.实验验证了理论分析的正确性以及所提算法在保持实时稳定性方面的良好性能. 相似文献

5.

基于AdaGrad+的自适应Heavy-Ball动量法及其最优个体收敛性

韦洪旭陇盛陶蔚陶卿《计算机科学》2023,(11):220-226

自适应策略与动量法是提升优化算法性能的常用方法。目前自适应梯度方法大多采用AdaGrad型策略，但该策略在约束优化中效果不佳，为此，研究人员提出了更适用于处理约束问题的AdaGrad+方法，但其与SGD一样在非光滑凸情形下未达到最优个体收敛速率，结合NAG动量也并未达到预期的加速效果。针对上述问题，文中将AdaGrad+调整步长的策略与Heavy-Ball型动量法加速收敛的优点相结合，提出了一种基于AdaGrad+的自适应动量法。通过设置加权动量项、巧妙选取时变参数和灵活处理自适应矩阵，证明了该方法对于非光滑一般凸问题具有最优个体收敛速率。最后在l_∞∞范数约束下，通过求解典型的hinge损失函数优化问题验证了理论分析的正确性，通过深度卷积神经网络训练实验验证了该方法在实际应用中也具有良好性能。相似文献

6.

梯度有偏情形非光滑问题NAG的个体收敛性

刘宇翔程禹嘉陶卿《软件学报》2020,31(4):1051-1062

随机优化方法已经成为处理大规模正则化和深度学习优化问题的首选方法,其收敛速率的获得通常都建立在目标函数梯度无偏估计的基础上,但对机器学习问题来说,很多现象都导致了梯度有偏情况的出现.与梯度无偏情形不同的是,著名的Nesterov加速算法NAG(Nesterov accelerated gradient)会逐步累积每次迭代中的梯度偏差,从而导致不能获得最优的收敛速率甚至收敛性都无法保证.近期的研究结果表明,NAG方法也是求解非光滑问题投影次梯度关于个体收敛的加速算法,但次梯度有偏对其影响的研究未见报道.针对非光滑优化问题,证明了在次梯度偏差有界的情况下,NAG能够获得稳定的个体收敛界,而当次梯度偏差按照一定速率衰减时,NAG仍然可获得最优的个体收敛速率.作为应用,得到了一种无需精确计算投影的投影次梯度方法,可以在保持收敛性的同时较快地达到稳定学习的精度.实验验证了理论分析的正确性及非精确方法的性能. 相似文献

7.

一种三参数统一化动量方法及其最优收敛速率

丁成诚陶蔚陶卿《计算机研究与发展》2020,57(8):1571-1580

动量方法由于能够改善SGD(stochastic gradient descent)的收敛性能而倍受机器学习研究者的关注.随着其在深度学习的成功应用,动量方法出现了众多形式的变体.特别地,产生了SUM(stochastic unified momentum)和QHM(quasi-hyperbolic momentum)两种统一框架.但是,即使是对非光滑凸优化问题,其最优平均收敛性的获得仍然存在着固定迭代步数和无约束等不合理限制.为此,提出了一种更一般的含三参数的统一化动量方法TPUM(triple-parameters unified momentum),能够同时包含SUM和QHM;其次,针对约束的非光滑凸优化问题,在采取时变步长的条件下,证明了所提出的TPUM具有最优的平均收敛速率,并将其推广到随机情况,从而保证了添加动量不会影响标准梯度下降法的收敛性能以及动量方法对机器学习问题的可应用性.典型的L1范数约束hinge损失函数优化问题实验验证了理论分析的正确性. 相似文献

8.

基于AdaGrad的自适应NAG方法及其最优个体收敛性

陇盛陶蔚张泽东陶卿《软件学报》2022,33(4):1231-1243

与梯度下降法相比,自适应梯度下降方法(AdaGrad)利用过往平方梯度的算数平均保存了历史数据的几何信息,在处理稀疏数据时获得了更紧的收敛界.另一方面,Nesterov加速梯度方法(Nesterov's accelerated gradient,NAG)在梯度下降法的基础上添加了动量运算,在求解光滑凸优化问题时具有数量... 相似文献

9.

提高BP网络收敛速率的又一种算法 总被引：4，自引：1，他引：3

陈玉芳雷霖《计算机仿真》2004,21(11):74-77

提高BP网络的训练速率是改善BP网络性能的一项重要任务。该文在误差反向传播算法(BP算法)的基础上提出了一种新的训练算法,该算法对BP网络的传统动量法进行了修改,采用动态权值调整以减少训练时间。文章提供了改进算法的仿真实例,仿真结果表明用该方法解决某些问题时,其相对于BP网络传统算法的优越性。相似文献

10.

一种具有最优收敛速度的正则化境面下降算法

王惊晓高乾坤汪群山《计算机工程》2014,(6):148-153

Pegasos算法是求解大规模支持向量机问题的有效方法,在随机梯度下降过程中植入多阶段循环步骤,能使该算法得到最优的收敛速度O(1/T)。COMID算法是由镜面下降算法推广得到的正则化随机形式,可保证正则化项的结构,但对于强凸的优化问题,该算法的收敛速度仅为O(logT/T)。为此,在COMID算法中引入多阶段循环步骤,提出一种求解L1+L2混合正则化项问题的最优正则化镜面下降算法,证明其具有最优的收敛速度O(1/T),以及与COMID算法相同的稀疏性。在大规模数据库上的实验结果验证了理论分析的正确性和所提算法的有效性。相似文献

11.

Estimation of convergence rate for multi-regression learning algorithm

XU ZongBen ZHANG YongQuan & CAO FeiLong Institute for Information System Sciences Xi’an Jiaotong University Xi’an China; MOE Key Labratory for Intelligent Networks Network Security Xi’an Jiaotong University Xi’an China; 《中国科学:信息科学(英文版)》2012,(3):701-713

In many applications, the pre-information on regression function is always unknown. Therefore, it is necessary to learn regression function by means of some valid tools. In this paper we investigate the regression problem in learning theory, i.e., convergence rate of regression learning algorithm with least square schemes in multi-dimensional polynomial space. Our main aim is to analyze the generalization error for multi-regression problems in learning theory. By using the famous Jackson operators in approximation theory, covering number, entropy number and relative probability inequalities, we obtain the estimates of upper and lower bounds for the convergence rate of learning algorithm. In particular, it is shown that for multi-variable smooth regression functions, the estimates are able to achieve almost optimal rate of convergence except for a logarithmic factor. Our results are significant for the research of convergence, stability and complexity of regression learning algorithm. 相似文献

12.

Estimation of convergence rate for multi-regression learning algorithm

XU ZongBen ZHANG YongQuan CAO FeiLong 《中国科学:信息科学(英文版)》2012,(3):701-713

相似文献

13.

Global convergence of a filter-trust-region algorithm for solving nonsmooth equations

《国际计算机数学杂志》2012,89(4):788-796

In this paper, we present a new algorithm for solving nonsmooth equations, where the function is locally Lipschitzian. The algorithm attempts to combine the efficiency of filter techniques and the robustness of trust-region method. Global convergence for this algorithm is established under reasonable assumptions. 相似文献

14.

多元回归学习算法收敛速度的估计

徐宗本张永全曹飞龙《中国科学:信息科学》2011,(2)

在许多应用中,回归函数的先验信息往往不能事先获取.因此,有必要利用有效的方法学习回归函数.本文研究学习理论中的回归问题,即研究多项式空间上具有最小二乘平方损失正则学习算法的收敛速度问题.主要目的在于分析学习理论中多维回归问题的泛化误差.利用逼近论中著名Jackson算子、覆盖数理论、集合的熵数以及有关概率不等式,得到学习算法收敛速度的上、下界估计.特别地,对于满足一定条件的多元光滑回归函数,除一个对数因子外,所获的收敛速度是最优的.本文结果对研究回归学习算法的收敛性、稳定性及复杂性等有着重要的意义. 相似文献

15.

A numerical method for determining monotonicity and convergence rate in iterative learning control

Kira L. Barton Douglas A. Bristow 《International journal of control》2013,86(2):219-226

In iterative learning control (ILC), a lifted system representation is often used for design and analysis to determine the convergence rate of the learning algorithm. Computation of the convergence rate in the lifted setting requires construction of large N×N matrices, where N is the number of data points in an iteration. The convergence rate computation is O(N²) and is typically limited to short iteration lengths because of computational memory constraints. As an alternative approach, the implicitly restarted Arnoldi/Lanczos method (IRLM) can be used to calculate the ILC convergence rate with calculations of O(N). In this article, we show that the convergence rate calculation using IRLM can be performed using dynamic simulations rather than matrices, thereby eliminating the need for large matrix construction. In addition to faster computation, IRLM enables the calculation of the ILC convergence rate for long iteration lengths. To illustrate generality, this method is presented for multi-input multi-output, linear time-varying discrete-time systems. 相似文献

16.

Distributed optimization with arbitrary local solvers

Chenxin Ma Jakub Konečný Martin Jaggi Virginia Smith Michael I. Jordan Peter Richtárik 《Optimization methods & software》2017,32(4):813-848

With the growth of data and necessity for distributed optimization methods, solvers that work well on a single machine must be re-designed to leverage distributed computation. Recent work in this area has been limited by focusing heavily on developing highly specific methods for the distributed environment. These special-purpose methods are often unable to fully leverage the competitive performance of their well-tuned and customized single machine counterparts. Further, they are unable to easily integrate improvements that continue to be made to single machine methods. To this end, we present a framework for distributed optimization that both allows the flexibility of arbitrary solvers to be used on each (single) machine locally and yet maintains competitive performance against other state-of-the-art special-purpose distributed methods. We give strong primal–dual convergence rate guarantees for our framework that hold for arbitrary local solvers. We demonstrate the impact of local solver selection both theoretically and in an extensive experimental comparison. Finally, we provide thorough implementation details for our framework, highlighting areas for practical performance gains. 相似文献