首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
文中利用随机共振对改善Adam优化的卷积神经网络在算力有限下的性能进行了研究。对反向传播算法采用动量梯度下降算法去更新参数的网络进行Adam优化,利用MNIST手写数字集进行仿真实验,在论文实验条件下,跟动量梯度下降算法的网络相比,Adam优化的网络在前15次epoch下交叉熵降低,增加训练样本数量可以使得交叉熵的降低幅度减小。论文对Adam优化的卷积神经网络的输出神经元加入高斯噪声,仿真结果表明,交叉熵减少百分比出现了随机共振现象,增加训练样本数量可以使得随机共振现象的效果减小。  相似文献   

2.
分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一.DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习.其具有收敛速度快且无须计算Hessian矩阵逆的优点,从而可以在高维情况下显著减少通信和计算开销.为了进一步提高计算效率,就需要研究如何加快DANE的局部优化.选择使用最流行的自适应梯度优化算法Adam取代常用的随机梯度下降法来求解DANE的局部单机子优化问题是一种可行的方法.实验表明,基于Adam的优化在收敛速度上可以明显快于原始的基于S GD的实现,且几乎不会牺牲模型泛化性能.  相似文献   

3.
基于机器学习的图像超分辨率系统主要应用于摄像设备分辨率不足、图像精度受损等场景,通过机器学习算法模型的方法解决对高清图像的需求问题。使用基于SRGAN图像超分辨率上的模型,对传统SRGAN模型的有关网络和函数进行改进和优化:通过对优化器Adam进行改进、调整学习率以及使用图像降噪等技术,使得重建的图像细节更加清晰,整体表现出较好的性能。  相似文献   

4.
在机器学习领域,传统模型的损失函数为凸函数,故具有全局最优解,通过传统的梯度下降算法可以求得最优解.但在深度学习领域,由于模型函数的隐式表达及同层神经元的可交换性,其损失函数为非凸函数,传统的梯度下降算法无法求得最优解,即使是较为先进的SGDM,Adam,Adagrad,RMSprop等优化算法也无法逃脱局部最优解的局限性,在收敛速度上虽然已经有很大的提升,但仍不能满足现实需求.现有的一系列优化算法都是针对已有优化算法的缺陷或局限性进行改进,优化效果有些许提升,但对于不同数据集的表现不一致.文中提出一种新的优化机制Rain,该机制结合深度神经网络中的Dropout机制,并融入到优化算法上得以实现.该机制并不是原有优化算法的改进版,而是独立于所有优化算法的第三方机制,但可以和所有优化算法搭配使用,从而提高其对于数据集的适应性.该机制旨在对模型在训练集上的表现进行优化,测试集上的泛化问题并不作为该机制的关注点.文中利用Deep Crossing和FM两个模型搭配5种优化算法,分别在Frappe和MovieLens两个数据集上进行实验,结果表明,加入Rain机制的模型在训练集上的损失函数值明显减小,且收敛速度加快,但其在测试集上的表现与原模型相差无几,即泛化性较差.  相似文献   

5.
针对目前国内对深度学习的卷积神经网络(Convolutional Neural Network,CNN)模型教学过程中,对优化器理论学习过程中存在实践不足问题,首先利用kaggle平台上的猫狗数据库,然后通过迁移学习方法设计猫狗识别的深度学习神经网络模型,最后分别选择AdaGrad、RMSProp和Adam三种不同的梯度下降优化算法,对同一网络模型结构进行训练。观察到使用AdaGrad算法对模型训练准确率可达84.1%,RMSProp优化算法对模型训练准确率可达85.6%,Adam算法对模型训练准确率可达86.3%。实验结果表明,在模型优化中,适合的优化算法不但会使模型收敛更快。也会影响模型的性能。同时加深学生理解不同优化器对模型的优化能力。  相似文献   

6.
《软件工程师》2020,(2):1-4
在机器学习领域中,梯度下降算法是一种广泛用于求解线性和非线性模型最优解的迭代算法,它的中心思想在于通过迭代次数的递增,调整使得损失函数最小化的权重。本文首先概述了基于多元线性模型的梯度下降算法;其次介绍了梯度下降算法三种框架,使用Python实现了自主停止训练的BGD算法;针对梯度下降算法存在的不足,综述了近三年算法优化的研究成果。最后,总结了本文的主要研究工作,对梯度下降优化算法的研究趋势进行了展望。  相似文献   

7.
田蕾  葛丽娜 《计算机应用》2023,(11):3346-3350
随着移动互联网行业进入快速发展阶段,用户数据以及浏览数据大幅增加,所以准确把握用户潜在需求和提高广告推荐效果显得极其重要。DeepFM模型作为目前较为先进的推荐方法,可以从原始特征中抽取到各种复杂度特征,但模型没有对数据进行防护。为了在DeepFM模型中实现隐私保护,提出一种基于差分隐私的DeepFM模型——DP-DeepFM,在模型训练过程中将高斯噪声加入Adam优化算法中,并进行梯度裁剪,防止加入噪声过大引发模型性能下降。在广告Criteo数据集上的实验结果表明,与DeepFM相比,DP-DeepFM的准确率仅下降了0.44个百分点,但它能提供差分隐私保护,更具安全性。  相似文献   

8.
度量亦称距离函数,是度量空间中满足特定条件的特殊函数,一般用来反映数据间存在的一些重要距离关系.而距离对于各种分类聚类问题影响很大,因此度量学习对于这类机器学习问题有重要影响.受到现实存在的各种噪声影响,已有的各种度量学习算法在处理各种分类问题时,往往出现分类准确率较低以及分类准确率波动大的问题.针对该问题,本文提出一种基于最大相关熵准则的鲁棒度量学习算法.最大相关熵准则的核心在于高斯核函数,本文将其引入到度量学习中,通过构建以高斯核函数为核心的损失函数,利用梯度下降法进行优化,反复测试调整参数,最后得到输出的度量矩阵.通过这样的方法学习到的度量矩阵将有更好的鲁棒性,在处理受噪声影响的各种分类问题时,将有效地提高分类准确率.本文将在一些常用机器学习数据集(UCI)还有人脸数据集上进行验证实验.  相似文献   

9.
深度学习是当下热门的机器学习研究方向,在工业上有着重要用途,在学术领域有着重要研究价值。文章介绍了深度学习架构,从随机梯度下降法和Adam算法两个方面分析优化算法,探讨Sigmoid函数和Softmax函数,并论述深度学习研究展望。  相似文献   

10.
张宇  蔡英  崔剑阳  张猛  范艳芳 《计算机应用》2023,(12):3647-3653
针对卷积神经网络(CNN)模型的训练过程中,模型参数记忆数据部分特征导致的隐私泄露问题,提出一种CNN中基于差分隐私的动量梯度下降算法(DPGDM)。首先,在模型优化的反向传播过程中对梯度添加满足差分隐私的高斯噪声,并用加噪后的梯度值参与模型参数的更新过程,从而实现对模型整体的差分隐私保护;其次,为了减少引入差分隐私噪声对模型收敛速度的影响,设计学习率衰减策略,改进动量梯度下降算法;最后,为了降低噪声对模型准确率的影响,在模型优化过程中动态地调整噪声尺度的值,从而改变在每一轮迭代中需要对梯度加入的噪声量。实验结果表明,与DP-SGD (Differentially Private Stochastic Gradient Descent)相比,所提算法可以在隐私预算为0.3和0.5时,模型准确率分别提高约5和4个百分点。可见,所提算法提高了模型的可用性,并实现了对模型的隐私保护。  相似文献   

11.
在联邦学习环境中选取适宜的优化器是提高模型性能的有效途径, 尤其在数据高度异构的情况下. 本文选取FedAvg算法与FedALA算法作为主要研究对象, 并提出其改进算法pFedALA. pFedALA通过令客户端在等待期间继续本地训练, 有效降低了由于同步需求导致的资源浪费. 在此基础上, 本文重点分析这3种算法中优化器的作用, 通过在MNIST和CIFAR-10数据集上测试, 比较了SGD、Adam、ASGD以及AdaGrad等多种优化器在处理非独立同分布(Non-IID)、数据不平衡时的性能. 其中重点关注了基于狄利克雷分布的实用异构以及极端的异构数据设置. 实验结果表明: 1) pFedALA算法呈现出比FedALA算法更优的性能, 表现为其平均测试准确率较FedALA提升约1%; 2)传统单机深度学习环境中的优化器在联邦学习环境中表现存在显著差异, 与其他主流优化器相比, SGD、ASGD与AdaGrad优化器在联邦学习环境中展现出更强的适应性和鲁棒性.  相似文献   

12.
随机梯度下降算法研究进展   总被引:6,自引:1,他引:5  
在机器学习领域中, 梯度下降算法是求解最优化问题最重要、最基础的方法. 随着数据规模的不断扩大, 传统的梯度下降算法已不能有效地解决大规模机器学习问题. 随机梯度下降算法在迭代过程中随机选择一个或几个样本的梯度来替代总体梯度, 以达到降低计算复杂度的目的. 近年来, 随机梯度下降算法已成为机器学习特别是深度学习研究的焦点. 随着对搜索方向和步长的不断探索, 涌现出随机梯度下降算法的众多改进版本, 本文对这些算法的主要研究进展进行了综述. 将随机梯度下降算法的改进策略大致分为动量、方差缩减、增量梯度和自适应学习率等四种. 其中, 前三种主要是校正梯度或搜索方向, 第四种对参数变量的不同分量自适应地设计步长. 着重介绍了各种策略下随机梯度下降算法的核心思想、原理, 探讨了不同算法之间的区别与联系. 将主要的随机梯度下降算法应用到逻辑回归和深度卷积神经网络等机器学习任务中, 并定量地比较了这些算法的实际性能. 文末总结了本文的主要研究工作, 并展望了随机梯度下降算法的未来发展方向.  相似文献   

13.
刘然  刘宇  顾进广 《计算机应用》2005,40(10):2804-2810
人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集成子网的两个步骤中,使用Adagrad、RMSProp、Adam、RAdam等自适应学习率方法来改进现有AdaNet中的优化算法。改进后的优化算法能够为不同维度参数提供不同程度的学习率缩放,得到更分散的权重分布,以增加AdaNet产生子网的多样性,从而降低集成学习的泛化误差。实验结果表明,在MNIST(Mixed National Institute of Standards and Technology database)、Fashion-MNIST、带高斯噪声的Fashion-MNIST这三个数据集上,改进后的优化算法能提升AdaNet的搜索速度,而且该方法产生的更加多样性的子网能提升集成模型的性能。在F1值这一评估模型性能的指标上,改进后的方法相较于原方法,在三种数据集上的最大提升幅度分别为0.28%、1.05%和1.10%。  相似文献   

14.
刘然  刘宇  顾进广 《计算机应用》2020,40(10):2804-2810
人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集成子网的两个步骤中,使用Adagrad、RMSProp、Adam、RAdam等自适应学习率方法来改进现有AdaNet中的优化算法。改进后的优化算法能够为不同维度参数提供不同程度的学习率缩放,得到更分散的权重分布,以增加AdaNet产生子网的多样性,从而降低集成学习的泛化误差。实验结果表明,在MNIST(Mixed National Institute of Standards and Technology database)、Fashion-MNIST、带高斯噪声的Fashion-MNIST这三个数据集上,改进后的优化算法能提升AdaNet的搜索速度,而且该方法产生的更加多样性的子网能提升集成模型的性能。在F1值这一评估模型性能的指标上,改进后的方法相较于原方法,在三种数据集上的最大提升幅度分别为0.28%、1.05%和1.10%。  相似文献   

15.
ABSTRACT

Hyperspectral image (HSI) classification is a most challenging task in hyperspectral remote sensing field due to unique characteristics of HSI data. It consists of huge number of bands with strong correlations in the spectral and spatial domains. Moreover, limited training samples make it more challenging. To address such problems, we have presented here a spatial feature extraction technique using deep convolutional neural network (CNN) for HSI classification. As optimizer plays an important role in learning process of deep CNN model, we have presented the effect of seven different optimizers on our deep CNN model in the application of HSI classification. The seven different optimizers used in this study are SGD, Adagrad, Adadelta, RMSprop, Adam, AdaMax, and Nadam. Extensive experimental results on four hyperspectral remote sensing data sets have been presented which demonstrate the superiority of the presented deep CNN model with Adam optimizer for HSI classification.  相似文献   

16.

Machine learning algorithms typically rely on optimization subroutines and are well known to provide very effective outcomes for many types of problems. Here, we flip the reliance and ask the reverse question: can machine learning algorithms lead to more effective outcomes for optimization problems? Our goal is to train machine learning methods to automatically improve the performance of optimization and signal processing algorithms. As a proof of concept, we use our approach to improve two popular data processing subroutines in data science: stochastic gradient descent and greedy methods in compressed sensing. We provide experimental results that demonstrate the answer is “yes”, machine learning algorithms do lead to more effective outcomes for optimization problems, and show the future potential for this research direction. In addition to our experimental work, we prove relevant Probably Approximately Correct (PAC) learning theorems for our problems of interest. More precisely, we show that there exists a learning algorithm that, with high probability, will select the algorithm that optimizes the average performance on an input set of problem instances with a given distribution.

  相似文献   

17.
Adam是目前深度神经网络训练中广泛采用的一种优化算法框架,同时使用了自适应步长和动量技巧,克服了SGD的一些固有缺陷。但即使对于凸优化问题,目前Adam也只是在线学习框架下给出了和梯度下降法一样的regret界,动量的加速特性并没有得到体现。这里针对非光滑凸优化问题,通过巧妙选取动量和步长参数,证明了Adam的改进型具有最优的个体收敛速率,从而说明了Adam同时具有自适应和加速的优点。通过求解 ${l_1}$ 范数约束下的hinge损失问题,实验验证了理论分析的正确性和在算法保持稀疏性方面的良好性能。  相似文献   

18.
基于模拟退火的粒子群优化算法   总被引:48,自引:6,他引:48  
粒子群优化算法是一类简单有效的随机全局优化技术。该文把模拟退火思想引入到具有杂交和高斯变异的粒子群优化算法中,给出了一种基于模拟退火的粒子群优化算法。该算法基本保持了粒子群优化算法简单容易实现的特点,但改善了粒子群优化算法摆脱局部极值点的能力,提高了算法的收敛速度和精度。四个基准测试函数的仿真对比结果表明,该算法不仅增强了全局收敛性,而且收敛速度和精度均优于粒子群优化算法。  相似文献   

19.
We propose a particle filter‐based learning method, PF‐LR, for learning logistic regression models from evolving data streams. The method inherently handles concept drifts in a data stream and is able to learn an  ensemble of logistic regression models with particle filtering. A key feature of PF‐LR is that in its resampling, step particles are sampled from the ones that maximize the classification accuracy on the current data batch. Our experiments show that PF‐LR gives good performance, even with relatively small batch sizes. It reacts to concept drifts quicker than conventional particle filters while being robust to noise. In addition, PF‐LR learns more accurate models and is more computationally efficient than the gradient descent method for learning logistic regression models. Furthermore, we evaluate PF‐LR on both synthetic and real data sets and find that PF‐LR outperforms some other state‐of‐the‐art streaming mining algorithms on most of the data sets tested.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号