首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对标准BP神经网络中收敛速度慢以及易陷入局部最优解等问题,利用粒子群算法的全局搜索性,将粒子群算法应用到BP神经网络训练中建立了PSO-BP神经网络模型,结果表明改进模型不仅可以克服传统BP网络收敛速度慢和易陷入局部权值的局限问题,而且很大程度地提高了结果精度和BP网络学习能力,将此模型应用到结晶器漏钢预报系统中,并用某钢厂采集到的历史数据对该模型进行训练与测试,与标准BP神经网络测试结果进行分析与比较,实验表明PSO-BP网络模型预报更加实时、准确,具有很好的应用前景.  相似文献   

2.
基于传统BP神经网络的入侵检测中,BP神经网络算法模型存在着易陷入局部最优且初始值随机性较大的缺陷。初始值的选择直接影响到BP神经网络的训练效果,较好的初始值有利于BP神经网络跳过局部最优,从而提高训练效率。针对BP神经网络的缺陷,提出了用改进的和声搜索算法对BP神经网络的初始值进行优化,使得BP神经网络得到一组较优的初值的方法。实验结果显示,改进的和声搜索算法具有更高的适应度函数值,将该算法优化的BP神经网络用在入侵检测中,能够显著提高算法检测率和收敛速率。  相似文献   

3.
BP神经网络是一种多层结构的映射网络。由于它计算简单、存储量小,并具有分布并行处理特性,所以是目前应用最广的一种模型。本文设计了一种BP神经网络的监督学习控制器(SNC),在线性最优励磁控制的基础上,利用3层BP神经网络对柴油发电机的控制过程进行监督学习。通过对网络的训练,使其能达到实时控制的目的。仿真结果表明,所设计的SNC在系统运行方式较大的变化范围内,都能提供很好的控制性能。  相似文献   

4.
为了解决基于传感器数据的运动识别问题,利用深度卷积神经网络(CNN)在公开的OPPORTUNITY传感器数据集上进行运动识别,提出了一种改进的渐进式神经网络架构搜索(PNAS)算法。首先,神经网络模型设计过程中不再依赖于合适拓扑结构的手动选择,而是通过PNAS算法来设计最优拓扑结构以最大化F1分数;其次,使用基于序列模型的优化(SMBO)策略,在该策略中将按照复杂度从低到高的顺序搜索结构空间,同时学习一个代理函数以引导对结构空间的搜索;最后,将搜索过程中表现最好的20个模型在OPPORTUNIT数据集上进行完全训练,并从中选出表现最好的模型作为搜索到的最优架构。通过这种方式搜索到的最优架构在OPPORTUNITY数据集上的F1分数达到了93.08%,与进化算法搜索到的最优架构及DeepConvLSTM相比分别提升了1.34%和1.73%,证明该方法能够改进以前手工设计的模型结构,且是可行有效的。  相似文献   

5.
BP神经网络在目前的非线性系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行,这对一般系统来说是非常麻烦和不现实的。对此文章提出了一种基于神经网络集成的强化学习BP算法,通过强化学习体系来实现体统的自学习,通过网络集成来达到初始数据的预处理,提高系统的泛化能力,并在实际应用中取得较好的效果。  相似文献   

6.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

7.
李臻  范家璐  姜艺  柴天佑 《自动化学报》2021,47(9):2182-2193
针对模型未知的线性离散系统在扰动存在条件下的调节控制问题, 提出了一种基于Off-policy的输入输出数据反馈的H控制方法. 本文从状态反馈在线学习算法出发, 针对系统运行过程中状态数据难以测得的问题, 通过引入增广数据向量将状态反馈策略迭代在线学习算法转化为输入输出数据反馈在线学习算法. 更进一步, 通过引入辅助项的方法将输入输出数据反馈策略迭代在线学习算法转化为无模型输入输出数据反馈Off-policy学习算法. 该算法利用历史输入输出数据实现最优输出反馈策略的学习, 同时克服了On-policy算法需要频繁与实际环境进行交互这一缺点. 除此之外, 与On-policy算法相比, Off-policy学习算法具有克服学习噪声的影响, 使学习结果收敛于理论最优值这一优点. 最终, 通过仿真实验验证了学习算法的收敛性.  相似文献   

8.
针对高g值加速度计动态模型问题,基于Hopkinson杆的校准系统所测的输入输出数据建立系统模型,提出了GWO-BP神经网络动态建模方法。利用灰狼种群算法优化BP神经网络建立的加速度计动态模型,对模拟输入输出信号进行仿真。最后,利用Hopkinson杆标定系统对加速度计的输入输出进行实测。结果表明,相比于BP神经网络算法,该算法经过优化改进后,求解精度提高了43.6%,证明了该方法的可行性。  相似文献   

9.
在模型未知和没有先验经验的条件下,采用一种改进的强化学习算法实现二级倒立摆系统的平衡控制。该学习算法不需要预测和辨识模型,能通过网络自身的联想和记忆,在线寻求最优策略。该学习算法采用基于神经网络的值函数逼近,并用直接梯度和适合度轨迹修正权值,有效实现对连续状态和行为空间任务的控制。计算机仿真证明了该强化学习算法在较短的时间内即可成功地学会控制直线二级倒立摆系统。  相似文献   

10.
林哲  全海燕 《计算机仿真》2020,37(3):270-274
在BP神经网络训练算法中,针对权值的优化学习容易陷入局部极值点、收敛速度慢等问题,很多研究引入智能优化算法对其进行改进,但传统的智能优化算法通常有多个控制参数,若不能正确选取参数,或者没有适当选择初始点位置,则很难搜索到最优的神经网络权值。为了解决这些问题,提出一种基于单形进化的BP神经网络学习算法,它通过全随机搜索减少算法的控制参数,利用群体的多角色态保持粒子的多样性,避免算法陷入局部的极值点,减少了对初始值的依赖。在应用中,将该算法应用于神经网络的训练算法中,通过对UCI数据集和人脸图像的测试,实验结果表明,上校算法训练的神经网络有效提高了识别率与训练效率。  相似文献   

11.
We address an unrelated parallel machine scheduling problem with R-learning, an average-reward reinforcement learning (RL) method. Different types of jobs dynamically arrive in independent Poisson processes. Thus the arrival time and the due date of each job are stochastic. We convert the scheduling problems into RL problems by constructing elaborate state features, actions, and the reward function. The state features and actions are defined fully utilizing prior domain knowledge. Minimizing the reward per decision time step is equivalent to minimizing the schedule objective, i.e. mean weighted tardiness. We apply an on-line R-learning algorithm with function approximation to solve the RL problems. Computational experiments demonstrate that R-learning learns an optimal or near-optimal policy in a dynamic environment from experience and outperforms four effective heuristic priority rules (i.e. WSPT, WMDD, ATC and WCOVERT) in all test problems.  相似文献   

12.
基于PSO-BP神经网络的网络流量预测与研究   总被引:4,自引:0,他引:4  
传统网络流量预测采用线性方法进行处理,不能很好地满足要求.根据互联网通信量的自相似性,提出一种基于BP网络的粒子群优化PSO-BP算法进行网络流量预测,用PSO算法对BP网络节点的初始权值进行优化,并利用历史记录训练BP网络,采用Matlab进行仿真.试验结果表明,PSO-BP算法加快了BP网络收敛速度,训练结果的均方误差函数mse在5%以内,提高了网络流量预测精度.  相似文献   

13.
Reinforcement learning (RL) is a powerful solution to adaptive control when no explicit model exists for the system being controlled. To handle uncertainty along with the lack of explicit model for the Cloud's resource management systems, this paper utilizes continuous RL in order to provide an intelligent control scheme for dynamic resource provisioning in the spot market of the Cloud's computational resources. On the other hand, the spot market of computational resources inside Cloud is a real-time environment in which, from the RL point of view, the control task of dynamic resource provisioning requires defining continuous domains for (state, action) pairs. Commonly, function approximation is used in RL controllers to overcome continuous requirements of (state, action) pair remembrance and to provide estimates for unseen statuses. However, due to the computational complexities of approximation techniques like neural networks, RL is almost impractical for real-time applications. Thus, in this paper, Ink Drop Spread (IDS) modeling method, which is a solution to system modeling without dealing with heavy computational complexities, is used as the basis to develop an adaptive controller for dynamic resource provisioning in Cloud's virtualized environment. The performance of the proposed control mechanism is evaluated through measurement of job rejection rate and capacity waste. The results show that at the end of the training episodes, in 90 days, the controller learns to reduce job rejection rate down to 0% while capacity waste is optimized down to 11.9%.  相似文献   

14.
在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识.由于所获得知识 通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中.本文提出一种基于定 性模糊网络的分层Option 算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特 征获得与参数无关的知识,完成知识传递.倒立摆系统的控制实验结果表明:定性模糊网络能有效地表示各种参数 值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展 到参数相关任务中.  相似文献   

15.
ACO—BP在神经网络训练中的研究与应用   总被引:1,自引:1,他引:0  
王鸽  蒲蓬勃 《计算机仿真》2009,26(12):136-140
针对神经网络收敛速度慢、易于陷入局部最优等问题,可将蚁群算法与人工神经网络相融合的方法来解决,但容易出现训练时间与训练精度、泛化能力之间的矛盾.为解决上述矛盾,提出将蚁群优化算法与反向传播算法相融合共同完成神经网络训练的方法.算法首先采用蚁群优化算法对网络权值进行整体寻优,克服反向传播算法容易陷入局部最优的不足再以找到的较优的权值为初值,采用反向传播算法做进一步的寻优,克服单一训练网络时间较长、精度不高的缺点.最后对ACO-BP与反向传播算法进行了比较,给出两种算法在不同隐结点数目下的检验误差值和两种网络在矿选指标中的应用效果.通过对实验结果的分析.表明ACO-BP算法要优于反向传播算法.  相似文献   

16.
Aim at the defects of easy to fall into the local minimum point and the low convergence speed of back propagation (BP) neural network in the gesture recognition, a new method that combines the chaos algorithm with the genetic algorithm (CGA) is proposed. According to the ergodicity of chaos algorithm and global convergence of genetic algorithm, the basic idea of this paper is to encode the weights and thresholds of BP neural network and obtain a general optimal solution with genetic algorithm, and then the general optimal solution is optimized to the accurate optimal solution by adding chaotic disturbance. The optimal results of the chaotic genetic algorithm are used as the initial weights and thresholds of the BP neural network to recognize the gesture. Simulation and experimental results show that the realtime performance and accuracy of the gesture recognition are greatly improved with CGA.  相似文献   

17.
本文提出了一种新的基于Agent的神经网络隐层结构的优化算法(OHA)。该方法包括两个部分,分别由RLAgent和NNAgent合作完成。RLAgent根据强化学习算法找到一个比当前节点数更优的解,并反馈给NNAgent。NNAgent据此构建相应的网络,并采用分层训练的算法对该网络进行优化,训练结果再发给RLAgent。在多次循环后,OHA算法就可以找到一个训练误差最小的全局最优解(权值及隐层节点数)。本文讨论了有关的算法、测试和结果分析。Iris数据集和危险评估数据集的测试结果表明,算法避免了盲目搜索造成的计算开销,明显改善了优化性能。  相似文献   

18.
We present a Reinforcement Learning (RL) algorithm based on policy iteration for solving average reward Markov and semi-Markov decision problems. In the literature on discounted reward RL, algorithms based on policy iteration and actor-critic algorithms have appeared. Our algorithm is an asynchronous, model-free algorithm (which can be used on large-scale problems) that hinges on the idea of computing the value function of a given policy and searching over policy space. In the applied operations research community, RL has been used to derive good solutions to problems previously considered intractable. Hence in this paper, we have tested the proposed algorithm on a commercially significant case study related to a real-world problem from the airline industry. It focuses on yield management, which has been hailed as the key factor for generating profits in the airline industry. In the experiments conducted, we use our algorithm with a nearest-neighbor approach to tackle a large state space. We also present a convergence analysis of the algorithm via an ordinary differential equation method.  相似文献   

19.
王林  彭璐  夏德  曾奕 《计算机工程与科学》2015,37(12):2270-2275
针对BP神经网络学习算法随机初始化连接权值和阈值易使模型陷入局部极小点的缺点,设计了一种自适应差分进化算法优化BP神经网络的混合算法。该混合算法中,差分进化算法采用自适应变异和交叉因子优化BP神经网络的初始权值和阈值,再用预寻优得到的初始权值和阈值训练BP神经网络得到最优的权值和阈值。首先对改进的自适应差分进化算法运用测试函数进行性能测试,然后用一个经典时间序列问题对提出的混合算法进行了检验,并与一般的神经网络、ARIMA预测模型及其它混合预测模型进行了对比,实验结果表明,本文提出的混合算法有效并且明显提高了预测精度。  相似文献   

20.
基于k–最近邻分类增强学习的除冰机器人抓线控制   总被引:1,自引:0,他引:1  
输电线柔性结构特性给除冰机器人越障抓线控制带来极大困难. 本文提出了一种结合k–最近邻(k-nearest neighbor, KNN)分类算法和增强学习算法的抓线控制方法. 利用基于KNN算法的状态感知机制选择机器人当前状态k个最邻近状态并且对之加权. 根据加权结果决定当前最优动作. 该方法可以得到机器人连续状态的离散表达形式, 从而有效解决传统连续状态泛化方法带来的计算收敛性和维数灾难问题. 借助增强学习算法探测和适应环境的能力, 该方法能够克服机器人模型误差和姿态误差,以及环境干扰等因素对抓线控制的影响. 文中给出了算法具体实现步骤, 并给出了应用此方法控制除冰机器人抓线的仿真实验.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号