共查询到18条相似文献,搜索用时 46 毫秒
1.
2.
陶卿马坡张梦晗陶蔚 《数据采集与处理》2017,32(1):17-25
随机优化方法是求解大规模机器学习问题的主流方法,其研究的焦点问题是算法是否达到最优收敛速率与能否保证学习问题的结构。目前,正则化损失函数问题已得到了众多形式的随机优化算法,但绝大多数只是对迭代进行平均的输出方式讨论了收敛速率,甚至无法保证最为典型的稀疏结构。与之不同的是,个体解能很好保持稀疏性,其最优收敛速率已经作为open问题被广泛探索。另外,随机优化普遍采用的梯度无偏假设往往不成立,加速方法收敛界中的偏差在有偏情形下会随迭代累积,从而无法应用。本文对一阶随机梯度方法的研究现状及存在的问题进行综述,其中包括个体收敛速率、梯度有偏情形以及非凸优化问题,并在此基础上指出了一些值得研究的问题。 相似文献
3.
4.
Adam是目前深度神经网络训练中广泛采用的一种优化算法框架,同时使用了自适应步长和动量技巧,克服了SGD的一些固有缺陷。但即使对于凸优化问题,目前Adam也只是在线学习框架下给出了和梯度下降法一样的regret界,动量的加速特性并没有得到体现。这里针对非光滑凸优化问题,通过巧妙选取动量和步长参数,证明了Adam的改进型具有最优的个体收敛速率,从而说明了Adam同时具有自适应和加速的优点。通过求解 ${l_1}$ 范数约束下的hinge损失问题,实验验证了理论分析的正确性和在算法保持稀疏性方面的良好性能。 相似文献
5.
对于一般凸问题,对偶平均方法的收敛性分析需要在对偶空间进行转换,难以得到个体收敛性结果.对此,文中首先给出对偶平均方法的简单收敛性分析,证明对偶平均方法具有与梯度下降法相同的最优个体收敛速率Ο(lnt/t).不同于梯度下降法,讨论2种典型的步长策略,验证对偶平均方法在个体收敛分析中具有步长策略灵活的特性.进一步,将个体收敛结果推广至随机形式,确保对偶平均方法可有效处理大规模机器学习问题.最后,在L1范数约束的hinge损失问题上验证理论分析的正确性. 相似文献
6.
《计算机科学与探索》2016,(11):1564-1570
研究了有向多个体网络的无梯度优化问题,提出了一种分布式随机投影无梯度优化算法。假定网络的优化目标函数可分解成所有个体的目标函数之和,每个个体仅知其自身的目标函数及其自身的状态约束集。运用无梯度方法解决了因个体目标函数可能非凸而引起的次梯度无法计算问题,并结合随机投影算法解决了约束集未知或约束集投影运算受限的问题。在该算法作用下,所有个体状态几乎必然收敛到优化集内,并且网络目标函数得到最优。 相似文献
7.
周强;陈军;鲍蕾;陶卿 《数据采集与处理》2024,(3):659-667
随着深度学习快速发展,模型的参数量和计算复杂度爆炸式增长,在移动终端上部署面临挑战,模型剪枝成为深度学习模型落地应用的关键。目前,基于正则化的剪枝方法通常采用L2正则化并结合基于数量级的重要性标准,是一种经验性的方法,缺乏理论依据,精度难以保证。受Proximal梯度方法求解稀疏优化问题的启发,本文提出一种能够在深度神经网络上直接产生稀疏解的Prox-NAG优化方法,并设计了与之配套的迭代剪枝算法。该方法基于L1正则化,利用Nesterov动量求解优化问题,克服了原有正则化剪枝方法对L2正则化和数量级标准的依赖,是稀疏优化从传统机器学习向深度学习的自然推广。在CIFAR10数据集上对ResNet系列模型进行剪枝实验,实验结果证明Prox-NAG剪枝算法较原有剪枝算法性能有所提升。 相似文献
8.
在光滑问题随机方法中使用减小方差策略,能够有效改善算法的收敛效果.文中同时引用加权平均和减小方差的思想,求解“L1+L2+Hinge”非光滑强凸优化问题,得到减小方差加权随机算法(α-HRMDVR-W).在每步迭代过程中使用减小方差策略,并且以加权平均的方式输出,证明其具有最优收敛速率,并且该收敛速率不依赖样本数目.与已有减小方差方法相比,α-HRMDVR-W每次迭代中只使用部分样本代替全部样本修正梯度.实验表明α-HRMDVR-W在减小方差的同时也节省CPU时间. 相似文献
9.
为了提高测量数据可靠性,多传感器数据融合在过程控制领域得到了广泛应用. 本文基于有偏估计能够减小最小二乘无偏估计方差的思想,提出采用多传感器有偏估计数据融合改善测量数据可靠性的方法. 首先,基于岭估计提出了有偏测量过程,并给出了测量数据可靠性定量表示方法,同时证明了有偏测量可靠度优于无偏测量可靠度. 其次,提出了多传感器有偏估计数据融合方法,证明了现有集中式与分布式无偏估计数据融合之间的等价性. 最后,证明了多传感器有偏估计数据融合收敛于无偏估计数据融合. 实例应用验证了方法的有效性. 相似文献
10.
提出了解决一类带等式与不等式约束的非光滑非凸优化问题的神经网络模型。证明了当目标函数有下界时,神经网络的解轨迹在有限时间收敛到可行域。同时,神经网络的平衡点集与优化问题的关键点集一致,且神经网络最终收敛于优化问题的关键点集。与传统基于罚函数的神经网络模型不同,提出的模型无须计算罚因子。最后,通过仿真实验验证了所提出模型的有效性。 相似文献
11.
Pegasos算法是求解大规模支持向量机问题的有效方法,在随机梯度下降过程中植入多阶段循环步骤,能使该算法得到最优的收敛速度O(1/T)。COMID算法是由镜面下降算法推广得到的正则化随机形式,可保证正则化项的结构,但对于强凸的优化问题,该算法的收敛速度仅为O(logT/T)。为此,在COMID算法中引入多阶段循环步骤,提出一种求解L1+L2混合正则化项问题的最优正则化镜面下降算法,证明其具有最优的收敛速度O(1/T),以及与COMID算法相同的稀疏性。在大规模数据库上的实验结果验证了理论分析的正确性和所提算法的有效性。 相似文献
12.
郭振华;闫瑞栋;邱志勇;赵雅倩;李仁刚 《计算机科学与探索》2025,19(3):667-681
随机梯度下降(SGD)算法因其性能优异而引起了机器学习和深度学习等领域研究人员的广泛关注。然而;SGD使用单样本随机梯度近似样本全梯度导致算法在迭代过程中引入了额外的方差;使得算法的收敛曲线震荡甚至发散;导致其收敛速率缓慢。因此;有效减小方差成为当前关键挑战。提出了一种基于小批量随机采样的方差缩减优化算法(DM-SRG);并应用于求解凸优化及非凸优化问题。算法主要特征在于设计了内外双循环结构:外循环结构采用小批量随机样本计算梯度近似全梯度;以达到减少梯度计算开销的目的;内循环结构采用小批量随机样本计算梯度并代替单样本随机梯度;提升算法收敛稳定性。针对非凸目标函数与凸目标函数;理论分析证明了DM-SRG算法具有次线性收敛速率。此外;设计了基于计算单元性能评估模型的动态样本容量调整策略;以提高系统训练效率。为评估算法的有效性;分别在不同规模的真实数据集上开展了数值模拟实验。实验结果表明算法较对比算法损失函数减少18.1%并且平均耗时降低8.22%。 相似文献
13.
传统的网络优化问题通过对偶梯度下降算法来解决,虽然该算法能够以分布式方式来实现,但其收敛速度较慢.加速对偶下降算法(ADD)通过近似牛顿步长的分布式计算,提高了对偶梯度下降算法的收敛速率.但由于通信网络的不确定性,在约束不确定时,该算法的收敛性难以保证.基于此,提出了一种随机形式的ADD算法来解决该网络优化问题.理论上证明了随机ADD算法当不确定性的均方误差有界时,能以较高概率收敛于最优值的一个误差邻域;当给出更严格的不确定性的约束条件时,算法则可以较高概率收敛于最优值.实验结果表明,随机ADD算法的收敛速率比随机梯度下降算法快两个数量级. 相似文献
14.
Local SGD训练方法用于分布式机器学习以缓解通信瓶颈,但其本地多轮迭代特性使异构集群节点计算时间差距增大,带来较大同步时延与参数陈旧问题。针对上述问题,基于Local SGD方法提出了一种动态部分同步通信策略(LPSP),该方法利用两层决策充分发挥Local SGD本地迭代优势。在节点每轮迭代计算结束后,基于本地训练情况判断通信可能性,并在全局划分同步集合以最小化同步等待时延,减少Local SGD通信开销并有效控制straggler负面影响。实验表明LPSP可以在不损失训练精确度的情况下实现最高0.75~1.26倍的加速,此外,最高还有5.14%的精确度提升,可以有效加速训练收敛。 相似文献
15.
In this paper, weighted stochastic gradient (WSG) algorithms for ARX models are proposed by modifying the standard stochastic gradient identification algorithms. In the proposed algorithms, the correction term is a weighting combination of the correction terms of the standard stochastic gradient (SG) algorithm in the current and last recursive steps. In addition, a latest estimation based WSG (LE‐WSG) algorithm is also established. The convergence performance of the proposed LE‐WSG algorithm is then analyzed. It is shown by a numerical example that both the WSG and LE‐WSG algorithms can possess faster convergence speed and higher convergence precision compared with the standard SG algorithms if the weighting factor is appropriately chosen. 相似文献
16.
针对极限学习机(extreme learning machine,ELM)隐节点不确定性导致的系统不稳定,以及对大型数据计算负担过重的问题,提出了基于自适应动量优化算法(adaptive and momentum method,AdaMom)的正则化极限学习机.算法主要思想是构造连续可微的目标函数,在梯度下降过程中计算自适应学习率,求自适应学习率与梯度乘积的指数加权平均值,通过迭代得到损失函数最小值对应的隐层输出权重矩阵.实验结果表明,在相同基准数据集的训练中,AdaMom-ELM算法具有非常良好的泛化性能和鲁棒性,提高了计算效率. 相似文献
17.
We present CGO-AS, a generalized ant system (AS) implemented in the framework of cooperative group optimization (CGO), to show the leveraged optimization with a mixed individual and social learning. Ant colony is a simple yet efficient natural system for understanding the effects of primary intelligence on optimization. However, existing AS algorithms are mostly focusing on their capability of using social heuristic cues while ignoring their individual learning. CGO can integrate the advantages of a cooperative group and a low-level algorithm portfolio design, and the agents of CGO can explore both individual and social search. In CGO-AS, each ant (agent) is added with an individual memory, and is implemented with a novel search strategy to use individual and social cues in a controlled proportion. The presented CGO-AS is therefore especially useful in exposing the power of the mixed individual and social learning for improving optimization. The optimization performance is tested with instances of the traveling salesman problem (TSP). The results prove that a cooperative ant group using both individual and social learning obtains a better performance than the systems solely using either individual or social learning. The best performance is achieved under the condition when agents use individual memory as their primary information source, and simultaneously use social memory as their searching guidance. In comparison with existing AS systems, CGO-AS retains a faster learning speed toward those higher-quality solutions, especially in the later learning cycles. The leverage in optimization by CGO-AS is highly possible due to its inherent feature of adaptively maintaining the population diversity in the individual memory of agents, and of accelerating the learning process with accumulated knowledge in the social memory. 相似文献