首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 171 毫秒
1.
由于激活函数本身的特性,使得卷积神经网络出现了梯度消失、神经元死亡、均值偏移、稀疏表达能力差等问题,针对这些问题,将"S"型激活函数和ReLU系激活函数进行了对比,分别讨论其优点和不足,并结合ReLU、PReLU和Soft-plus三种激活函数优点,提出了一种新型激活函数SPReLU.实验结果表明,SPReLU函数在性能上优于其他激活函数,收敛速度快,能有效降低训练误差,缓解梯度消失和神经元死亡等问题,能够有效地提高文本分类模型的准确性.  相似文献   

2.
针对卷积神经网络在性耗比上的不足,提出了异构式CPU+GPU的协同计算模型,在模型计算过程中使CPU负责逻辑性强的事物处理和串行计算,使GPU执行高度线程化的并行处理任务。通过实验测试与单GPU训练、单CPU训练进行对比,结果表明异构式CPU+GPU计算模型在性耗比上更加优异。针对在卷积神经网络中Swish激活函数在反向传播求导误差梯度时涉及参数较多所导致的计算量较大,收敛速度慢,以及ReLU激活函数在[x]负区间内导数为零所导致的负梯度被置为零且神经元可能无法被激活的问题,提出了新的激活函数ReLU-Swish。通过测试训练对比并分析结果,将Swish激活函数小于零与ReLU激活函数大于零的部分组成分段函数,并且通过CIFAR-10和MNIST两个数据集进行测试对比实验。实验结果表明,ReLU-Swish激活函数在收敛速度以及模型测试训练的准确率上对比Swish激活函数及ReLU激活函数有较明显的提高。  相似文献   

3.
张焕  张庆  于纪言 《计算机仿真》2022,39(4):328-334
为了提高卷积神经网络模型的效率,针对激活函数进行了研究.通过研究多种激活函数的发展进程,列举各类激活函数的性质,以及在分析模型前向传播和反向传播中激活函数所起到的作用的基础上,提出了改进的激活函数ReLU-XeX,有效的缓解了梯度消失、"神经元坏死"等问题.在MNIST、CIFAR-10、CIFAR-100、MSTAR...  相似文献   

4.
针对深度神经网络训练过程中残差随着其传播深度越来越小而使底层网络无法得到有效训练的问题,通过分析传统sigmoid激活函数应用于深度神经网络的局限性,提出双参数sigmoid激活函数。一个参数保证激活函数的输入集中坐标原点两侧,避免了激活函数进入饱和区,一个参数抑制残差衰减的速度,双参数结合有效的增强了深度神经网络的训练。结合DBN对MNIST数据集进行数字分类实验,实验表明双参数 sigmoid激活函数能够直接应用于无预训练深度神经网络,而且提高了sigmoid激活函数在有预训练深度神经网络中的训练效果。  相似文献   

5.
ReLU激活函数优化研究   总被引:1,自引:0,他引:1  
门控循环单元(GRU)是一种改进型的长短期记忆模型(LSTM)结构,有效改善了LSTM训练耗时的缺点.在GRU的基础上,对激活函数sigmoid,tanh,ReLU等性能进行了比较和研究,详细分析了几类激活函数的优缺点,提出了一种新的激活函数双曲正切线性单元(TLU).实验证明:新的激活函数既能显著地加快深度神经网络的训练速度,又有效降低训练误差.  相似文献   

6.
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,验证了所提算法的正确性和有效性。  相似文献   

7.
近年来,人们为处理众多问题引入了各种类型的神经网络,神经网络取得了巨大的发展。任何神经网络使用的层次结构是线性和非线性函数的组合,其中最常见的非线性层是激活函数,如Logistic Sigmoid、Tanh、ReLU、ELU、Swish和Mish。对深度学习神经网络中的激活函数进行了介绍,并对不同激活函数的输出范围、单调性、平滑性等特点进行了分析。通过在数据集上测试,对现在使用频率较高的激活函数进行了性能测试。对激活函数的分析将有助于进一步地在模型设计中进行选择。  相似文献   

8.
深度学习应用技术研究   总被引:2,自引:0,他引:2  
本文针对深度学习应用技术进行了研究性综述。详细阐述了RBM(Restricted Boltzmann Machine)逐层预训练后再用BP(back-propagation)微调的深度学习贪婪层训练方法,对比分析了BP算法中三种梯度下降的方式,建议在线学习系统,采用随机梯度下降,静态离线学习系统采用随机小批量梯度下降;归纳总结了深度学习深层结构特征,并推荐了目前最受欢迎的5层深度网络结构设计方法。分析了前馈神经网络非线性激活函数的必要性及常用的激活函数优点,并推荐ReLU (rectified linear units)激活函数。最后简要概括了深度CNNs(Convolutional Neural Networks), 深度RNNs(recurrent neural networks), LSTM(long short-termmemory networks)等新型深度网络的特点及应用场景,并归纳总结了当前深度学习可能的发展方向。  相似文献   

9.
针对特定任务中深度学习模型的激活函数不易选取的问题,在分析传统激活函数和现阶段运用比较广泛的激活函数的优缺点的基础上,将Tanh激活函数与广泛使用的ReLU激活函数相结合,构造了一种能够弥补Tanh函数和ReLU函数缺点的激活函数T-ReLU。通过构建台风等级分类的深度学习模型Typ-CNNs,将日本气象厅发布的台风卫星云图作为自建样本数据集,采用几种不同的激活函数进行对比实验,结果显示使用T-ReLU函数得到的台风等级分类的测试精度比使用ReLU激活函数的测试精度高出1.124%,比使用Tanh函数的测试精度高出2.102%;为了进一步验证结果的可靠性,采用MNIST通用数据集进行激活函数的对比实验,最终使用T-ReLU函数得到99.855%的训练精度和98.620%的测试精度,其优于其他激活函数的效果。  相似文献   

10.
通过对Normalization、优化器、激活函数三方面对AlexNet卷积神经网络进行了改进及优化。针对LRN(Local Response Normalization)不存在可学习参数,提出了用WN(Weight Normalization)来代替LRN,同时将WN置于所有池化层(Pooling layer)之后,提高了AlexNet模型训练的准确率;通过对比分析Adam、RMSProp、Momentum三种优化器在不同学习率(Learning rate)下对AlexNet模型训练的影响,并得出了相应的学习率的优化区间,提高了AlexNet在Optimizer的学习率区间选择上的准确性;针对AlexNet中ReLU激活函数存在的部分权重无法更新以及梯度爆炸问题,提出了ReLU6与Swish的融合分段函数算法,提升了AlexNet模型训练收敛速度以及准确率的同时也缓解了过拟合现象的发生。  相似文献   

11.
针对当前电力通讯网络故障诊断方法及时性差、准确率低和自我学习能力差等缺陷,提出基于改进卷积神经网络的电力通信网故障诊断方法,结合ReLU和Softplus两个激活函数的特点,对卷积神经网络原有激活函数进行改进,使其同时具备光滑性与稀疏性;采用ReLU函数作为作为卷积层与池化层的激活函数,改进激活函数作为全连接层激活函数的结构模型,基于小波神经网络模型对告警信息进行加权操作,得到不同告警类型和信息影响故障诊断和判定的权重,进一步提升故障诊断的准确率;最后通过仿真试验可以看出,改进卷积神经网络相较贝叶斯分类算法与卷积神经网络具有较高的准确率和稳定性,故障诊断准确率达到99.1%,准确率标准差0.915%,为今后电力通讯网智能化故障诊断研究提供一定的参考。  相似文献   

12.
Current improvements in the performance of deep neural networks are partly due to the proposition of rectified linear units. A ReLU activation function outputs zero for negative component, inducing the death of some neurons and a bias shift of the outputs, which causes oscillations and impedes learning. According to the theory that “zero mean activations improve learning ability”, a softplus linear unit (SLU) is proposed as an adaptive activation function that can speed up learning and improve performance in deep convolutional neural networks. Firstly, for the reduction of the bias shift, negative inputs are processed using the softplus function, and a general form of the SLU function is proposed. Secondly, the parameters of the positive component are fixed to control vanishing gradients. Thirdly, the rules for updating the parameters of the negative component are established to meet back- propagation requirements. Finally, we designed deep auto-encoder networks and conducted several experiments with them on the MNIST dataset for unsupervised learning. For supervised learning, we designed deep convolutional neural networks and conducted several experiments with them on the CIFAR-10 dataset. The experiments have shown faster convergence and better performance for image classification of SLU-based networks compared with rectified activation functions.  相似文献   

13.
Deep learning: an overview and main paradigms   总被引:1,自引:0,他引:1  
In the present paper, we examine and analyze main paradigms of learning of multilayer neural networks starting with a single layer perceptron and ending with deep neural networks, which are considered regarded as a breakthrough in the field of the intelligent data processing. The baselessness of some ideas about the capacity of multilayer neural networks is shown and transition to deep neural networks is justified. We discuss the principal learning models of deep neural networks based on the restricted Boltzmann machine (RBM), an autoassociative approach and a stochastic gradient method with a Rectified Linear Unit (ReLU) activation function of neural elements.  相似文献   

14.
In the proposed work, two types of artificial neural networks are proposed by using well-known advantages and valuable features of wavelets and sigmoidal activation functions. Two neurons are derived by adding and multiplying the outputs of the wavelet and the sigmoidal activation functions. These neurons in a feed-forward single hidden layer network result summation wavelet neural network (SWNN) and multiplication wavelet neural network (MWNN). An algorithm is introduced for structure determination of the proposed networks. Approximation properties of SWNN and MWNN have been evaluated with different wavelet functions. The above networks in the consequent part of the neuro-fuzzy model result summation wavelet neuro-fuzzy (SWNF) and multiplication wavelet neuro-fuzzy (MWNF) models. Different types of wavelet function are tested with the proposed networks and fuzzy models on four different dynamical examples. Convergence of the learning process is also guaranteed by adaptive learning rate and performing stability analysis using Lyapunov function.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号