首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 515 毫秒
1.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   

2.
罗飞  白梦伟 《计算机应用》2022,42(8):2361-2368
在复杂交通情景中求解出租车路径规划决策问题和交通信号灯控制问题时,传统强化学习算法在收敛速度和求解精度上存在局限性;因此提出一种改进的强化学习算法求解该类问题。首先,通过优化的贝尔曼公式和快速Q学习(SQL)机制,以及引入经验池技术和直接策略,提出一种改进的强化学习算法GSQL-DSEP;然后,利用GSQL-DSEP算法分别优化出租车路径规划决策问题中的路径长度与交通信号灯控制问题中的车辆总等待时间。相较于Q学习、快速Q学习(SQL)、、广义快速Q学习(GSQL)、Dyna-Q算法,GSQL-DSEP算法在性能测试中降低了至少18.7%的误差,在出租车路径规划决策问题中使决策路径长度至少缩短了17.4%,在交通信号灯控制问题中使车辆总等待时间最多减少了51.5%。实验结果表明,相较于对比算法,GSQL-DSEP算法对解决交通情景问题更具优势。  相似文献   

3.
赵振根  程磊 《控制与决策》2024,39(2):391-400
针对固定翼无人机纵向控制的高性能需求,提出一种控制系统性能优化结构.该结构包括一个使系统稳定的标称控制器和一个参与性能优化的增量式控制器.控制系统增量式的实现不会改变原有的控制系统,而是仅对标称控制系统做控制输入的补偿与控制性能的优化.基于Q学习理论进行增量式控制器设计,针对状态信息完全可获得的系统,设计一种基于状态反馈的增量式Q学习算法.当状态信息不能完全获得时,利用系统输入、输出和参考信号数据,设计一种基于输出反馈的增量式Q学习算法.两种增量式控制器均是在数据驱动环境下自适应学习增量式控制律,无需提前知道系统动力学模型以及标称控制器的控制增益.此外,证明了增量式Q学习方法在满足持续激励条件的激励噪声下,对Q函数贝尔曼方程的求解没有偏差.最后,通过对F-16飞行器纵向模型实例的仿真验证该方法的有效性.  相似文献   

4.
基于Q学习算法和BP神经网络的倒立摆控制   总被引:37,自引:1,他引:37  
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方 法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控 制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2] 的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果.  相似文献   

5.
Q学习算法是求解信息不完全马尔可夫决策问题的一种强化学习方法.Q学习中强化信号的设计是影响学习效果的重要因素.本文提出一种基于模糊规则的Q学习强化信号的设计方法,提高强化学习的性能.并将该方法应用于单交叉口信号灯最优控制中,根据交通流的变化自适应调整交叉口信号灯的相位切换时间和相位次序.通过Paramics微观交通仿真软件验证,说明在解决交通控制问题中,使用基于模糊规则的Q学习的学习效果优于传统Q学习.  相似文献   

6.
针对多目标粒子群优化算法在求解约束优化问题时存在难以兼顾收敛性能和求解质量这一问题,提出一种基于免疫网络的改进多目标粒子群优化算法.该算法通过免疫网络互通种群最优信息达到粒子群算法与人工免疫网络算法的协同搜索,同时给出了速度迁移策略、自适应方差变异策略和基于聚类的免疫网络策略.最后将所提出的方法应用于求解电弧炉供电优化模型,达到了减少电量消耗、缩短冶炼时间、延长炉衬使用寿命的目的,同时表明了该算法的有效性.  相似文献   

7.
样本有限关联值递归Q学习算法及其收敛性证明   总被引:5,自引:0,他引:5  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

8.
目标规划法在预测控制滚动优化及在线辨识中的应用   总被引:4,自引:1,他引:4  
余世明  杜维 《自动化学报》2002,28(6):995-1000
针对有约束多目标多自由度预测控制问题,应用目标规划方法,提出了一种既适合于 参数模型又适合于非参数模型的在线滚动优化策略,并且通过计算饥仿真研究,验证了该方法 的有效性.然后,对于参数模型预测控制问题,提出了一种抗扰动的最小绝对值辨识算法.由于 该辨识算法可用目标规划快速求解,因此可作为慢时变工业过程控制的在线辨识算法.  相似文献   

9.
杨珺  姜凯  李扬 《控制与决策》2017,32(7):1301-1305
将运行风险应用于预防控制与校正控制之间的协调问题中,提出一种新的控制策略.首先,利用二层规划理论建立预防控制和校正控制的二层优化模型;然后,采用一种将内点法嵌入粒子群算法的混合解法进行该二层优化模型的求解;最后,利用6节点系统进行所提出模型与传统模型的对比性仿真.仿真计算结果表明,所提出控制策略在经济效益和运行风险方面的综合性能优于传统的安全约束调度方法,从而验证了所提出策略的合理性.  相似文献   

10.
提出一种基于PSR模型的规划算法.首先提出了状态经历的概念与发现方法,并进一步用此概念来描述系统的PSR状态.在此基础上,讨论了如何用判别分析方法,确定任意经历下的PSR状态以及如何在该过程中同时获取系统的PSR模型.从而可引入Q学习算法,用于决策当前的最优策略.算法被应用于一些标准的POMDP问题,实验结果验证了所提方法的有效性.  相似文献   

11.
基于每阶段平均费用最优的激励学习算法   总被引:4,自引:0,他引:4  
文中利用求解最优费用函数的方法给出了一种新的激励学习算法,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法,它从求解分阶段最优平均费用函数的方法出发,分析了最优解的存在性,分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到激励学习的研究中来。  相似文献   

12.
基于有限样本的最优费用关联值递归Q学习算法   总被引:4,自引:2,他引:4  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

13.
针对网格服务的动态性、时序性和随机性,给出了一种基于Q-learning的动态网格服务选择方法,用于求解具有不完全信息的网格环境中的服务组合。对满足马尔可夫决策过程的服务组合提出了一种支持不完备信息描述的网格服务描述模型,实现了对服务组合整个生命周期的描述。提出了一种改进的Q-learning 算法,动态、自适应地对服务选择中不同选择进行预估,并给出不同情况下的最优选择决策。仿真实验表明了该方法较传统的贪心选择算法具有优越性与实用性。  相似文献   

14.
设计了一个强化学习和仿真相结合的动态实时车间作业排序系统.首先引入多个随机变量,将车间作业排序问题转换成序贯决策问题;然后通过仿真手段构建车间作业排序问题的模型环境,求取系统性能指标并保证解的可行性;接着设计了一个多智能体Q学习算法和仿真集成解决作业排序问题;最后通过仿真优化实验验证了该系统的有效性.  相似文献   

15.
碳排放预警决策系统可通过计算、分析相关的数据,判断碳排放强度,并输出相应的碳减排决策。对碳排放预警决策系统进行了研究和设计,深入分析了系统开发的关键技术和存在的问题,提出了相应的解决方案。该系统可判断碳强度,并利用Web GIS提供的地理信息,经由基于聚类Q学习算法的专家系统,输出有效的碳减排决策,以达到预警和决策的目的。该系统具有易操作、可扩展等特点,为制定碳减排策略提供参考依据。  相似文献   

16.
柔性决策及其在资源分配问题中的应用   总被引:3,自引:0,他引:3  
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号