首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 578 毫秒
1.
本文以钴湿法冶金过程草酸钴合成为背景,研究基于多向偏最小二乘回归(MPLS)模型的草酸钴平均粒度批次间自适应优化策略.本文首先利用MPLS方法建立草酸钴平均粒度的数据模型;针对模型不确定性情况下难以获得最优操作变量的问题,提出利用批次间修正项自适应优化方法,使迭代优化结果逐渐趋向于实际最优值;本文还通过引入T2统计量软约束将优化结果限制在数据模型的有效区间之内.数值仿真表明该方法可以有效解决草酸钴合成过程的批次间自适应优化问题,且与传统两步方法和迭代学习控制相比具有更好的优化效果.  相似文献   

2.
申怡  刘全 《计算机科学》2021,48(12):297-303
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现.近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低.针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimiza-tion Based on Self-Directed Action Selection,SDAS-PPO).SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导.SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习.为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验.实验结果表明,该方法在绝大多数环境下具有更好的表现.  相似文献   

3.
针对飞行目标机动性带来的多传感器协同探测资源调度动态性需求, 提出一种新的基于近端策略优化(Proximal policy optimization, PPO)与全连接神经网络结合的多传感器协同探测资源调度算法. 首先, 分析影响多传感器协同探测资源调度的复杂约束条件, 形成评价多传感器协同探测资源调度过程指标; 然后, 引入马尔科夫决策过程(Markov decision process, MDP)模拟多传感器协同探测资源调度过程, 并为提高算法稳定性, 将Adam算法与学习率衰减算法结合, 控制学习率调整步长; 最后, 基于改进近端策略优化与全卷积神经网络结合算法求解动态资源调度策略, 并通过对比实验表明该算法的优越性.  相似文献   

4.
针对SDN控制器中网络路由的优化问题,基于强化学习中的PPO模型设计了一种路由优化算法。该算法可以针对不同的优化目标调整奖励函数来动态更新路由策略,并且不依赖于任何特定的网络状态,具有较强的泛化性能。由于采用了强化学习中策略方法,该算法对路由策略的控制相比各类基于Q-learning的算法更为精细。基于Omnet++仿真软件通过实验评估了该算法的性能,相比传统最短路径路由算法,路由优化算法在Sprint结构网络上的平均延迟和端到端最大延迟分别降低了29.3%和17.4%,吞吐率提高了31.77%,实验结果说明了基于PPO的SDN路由控制算法不仅具有良好的收敛性,而且相比静态最短路径路由算法与基于Q-learning的QAR路由算法具有更好的性能和稳定性。  相似文献   

5.
针对列车自动运行系统(ATO)运行时受停车能耗性,舒适性等问题的约束,提出一种基于分层学习黄金正弦-鲸鱼优化算法的列车自动驾驶速度曲线优化方法;根据列车运行的优化目标和约束条件,建立列车的多目标优化模型,并对列车运行策略进行了分析.对算法的种群框架结构进行细分,将种群划分为三层,根据不同阶层的个体采用不同的优化策略,对...  相似文献   

6.
针对动态贝叶斯转移网络的特点,以I-ACO-B为基础,提出基于蚁群优化的分步构建转移网络的结构学习算法ACO-DBN-2S。算法将转移网络的结构学习分为时间片之间和时间片内2个步骤进行,通过改进隔代优化策略,减少无效优化次数。标准数据集下的大量实验结果证明,该算法能更有效地处理大规模数据,学习精度和速度有较大改进。  相似文献   

7.
张杰  马菲菲  郑禾丹  刘志中 《计算机应用研究》2023,40(4):1101-1107+1118
近年来,国内外学者针对基于预测的动态多目标优化算法开展了深入研究,并提出了一系列有效的算法,然而已有的研究工作通常采用单一的预测策略,使得算法不能有效地应对剧烈的环境变化。针对上述问题,提出了一种基于混合预测策略与改进社会学习优化算法的动态多目标优化方法。具体地,当环境发生变化时,该方法首先基于代表性个体预测策略生成一部分群体;其次,基于拐点预测策略生成一部分新群体,特别地,为了提高种群的多样性,根据算法迭代的历史信息和环境变化情况随机地生成一定数量的新个体;为了提高问题的求解效率,对社会学习优化算法进行了改进,为每个进化空间设计了适用于动态多目标优化问题的算子;最后,将混合预测策略与改进的社会学习优化算法结合,构成了一种新的动态多目标优化方法。以FDA、DMOP和F函数集作为实验测试函数集,与四种代表性算法进行了性能对比;并以反向世代距离(inverted generational distance, IGD)对该方法的性能进行了深入的分析。实验结果表明所提方法具有较好的收敛性和鲁棒性。  相似文献   

8.
动态电源管理的随机切换模型与在线优化   总被引:3,自引:0,他引:3  
考虑系统参数未知情况下的动态电源管理问题,提出一种基于强化学习的在线策略优化算法. 通过建立事件驱动的随机切换分析模型,将动态电源管理问题转化为带约束的Markov 决策过程的策略优化问题. 利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,提出动态电源管理策略的在线优化算法.随机切换模型对电源管理系统的动态特性描述精确,在线优化算法自适应性强,运算量小,精度高,具有较高的实际应用价值.  相似文献   

9.
针对监测区域内无线传感器网络节点部署容易出现分布不均匀、有效覆盖率低等问题,提出一种多策略混合改进哈里斯鹰算法的WSN节点覆盖优化策略。利用Fuch无限折叠混沌初始化、自适应精英个体对立学习、正余弦优化和高斯与拉普拉斯最优解变异策略对标准哈里斯鹰优化算法的性能进行改进。利用改进算法求解WSN节点覆盖优化问题,以监测区域网络覆盖率最大为目标,对节点部署位置寻优。实验结果表明,改进策略能够得到更高的网络覆盖率,减少传感节点冗余,延长网络生存时间。  相似文献   

10.
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。  相似文献   

11.
季颖  王建辉 《控制与决策》2022,37(7):1675-1684
提出一种基于深度强化学习的微电网在线优化调度策略.针对可再生能源的随机性及复杂的潮流约束对微电网经济安全运行带来的挑战,以成本最小为目标,考虑微电网运行状态及调度动作的约束,将微电网在线调度问题建模为一个约束马尔可夫决策过程.为避免求解复杂的非线性潮流优化、降低对高精度预测信息及系统模型的依赖,设计一个卷积神经网络结构学习最优的调度策略.所提出的神经网络结构可以从微电网原始观测数据中提取高质量的特征,并基于提取到的特征直接产生调度决策.为了确保该神经网络产生的调度决策能够满足复杂的网络潮流约束,结合拉格朗日乘子法与soft actor-critic,提出一种新的深度强化学习算法来训练该神经网络.最后,为验证所提出方法的有效性,利用真实的电力系统数据进行仿真.仿真结果表明,所提出的在线优化调度方法可以有效地从数据中学习到满足潮流约束且具有成本效益的调度策略,降低随机性对微电网运行的影响.  相似文献   

12.
如何消除数据中心的局部热点是困扰数据中心行业的关键问题之一.本文采用主动地板(AVT)来抑制局部机架热点现象,并将数据中心AVT控制问题抽象为马尔可夫决策过程,设计了基于深度强化学习的主动地板最优控制策略.该策略基于模型深度强化学习方法,克服了传统无模型深度强化学习方法采样效率低的缺陷.大量仿真实验结果表明,与经典无模型(PPO)方法相比,所提出的方法可迅速收敛到最优控制策略,并可以有效抑制机架热点现象.  相似文献   

13.
针对部分系统存在输入约束和不可测状态的最优控制问题,本文将强化学习中基于执行–评价结构的近似最优算法与反步法相结合,提出了一种最优跟踪控制策略.首先,利用神经网络构造非线性观测器估计系统的不可测状态.然后,设计一种非二次型效用函数解决系统的输入约束问题.相比现有的最优方法,本文提出的最优跟踪控制方法不仅具有反步法在处理...  相似文献   

14.
针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能.  相似文献   

15.
宋锐  李凤鸣  权威  李贻斌 《控制与决策》2022,37(5):1329-1337
机器人的装配策略受装配对象特性、装配工艺和装配控制方法的约束,针对装配过程接触阶段的位姿不确定性问题,提出一种装配姿态调整技能自学习的方法.首先描述多约束条件下的机器人装配技能问题,建立基于力/力矩、位姿、关节角度等多模信息描述的装配系统模型;然后构建融合竞争架构的机器人决策网络和策略优化网络,通过与环境的不断交互,进...  相似文献   

16.
饶东宁  罗南岳 《计算机工程》2023,49(2):279-287+295
堆垛机调度是物流仓储自动化中的重要任务,任务中的出入库效率、货物存放等情况影响仓储系统的整体效益。传统调度方法在面对较大规模调度问题时,因处理大状态空间从而导致性能受限和收益降低。与此同时,库位优化与调度运行联系密切,但现有多数工作在处理调度问题时未能考虑到库位优化问题。为解决仓储中堆垛机调度问题,提出一种基于深度强化学习算法的近端策略优化调度方法。将调度问题视为序列决策问题,通过智能体与环境的持续交互进行自我学习,以在不断变化的环境中优化调度。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,并基于调度网络构建适用于库位推荐的Actor网络,通过与Critic网络进行交互反馈,促进整体的联动和训练,从而提升整体效益。实验结果表明,与原算法模型相比,该调度方法的累计回报值指标平均提升了33.6%,所提的多任务学习的联合算法能有效地应对堆垛机调度和库位优化的应用场景,可为该类多任务问题提供可行的解决方案。  相似文献   

17.
The resource-constrained project scheduling problem (RCPSP) is encountered in many fields, including manufacturing, supply chain, and construction. Nowadays, with the rapidly changing external environment and the emergence of new models such as smart manufacturing, it is more and more necessary to study RCPSP considering resource disruptions. A framework based on reinforcement learning (RL) and graph neural network (GNN) is proposed to solve RCPSP and further solve the RCPSP with resource disruptions (RCPSP-RD) on this basis. The scheduling process is formulated as sequential decision-making problems. Based on that, Markov decision process (MDP) models are developed for RL to learn scheduling policies. A GNN-based structure is proposed to extract features from problems and map them to action probability distributions by policy network. To optimize the scheduling policy, proximal policy optimization (PPO) is applied to train the model end-to-end. Computational results on benchmark instances show that the RL-GNN algorithm achieves competitive performance compared with some widely used methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号