共查询到16条相似文献,搜索用时 515 毫秒
1.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献
2.
在复杂交通情景中求解出租车路径规划决策问题和交通信号灯控制问题时,传统强化学习算法在收敛速度和求解精度上存在局限性;因此提出一种改进的强化学习算法求解该类问题。首先,通过优化的贝尔曼公式和快速Q学习(SQL)机制,以及引入经验池技术和直接策略,提出一种改进的强化学习算法GSQL-DSEP;然后,利用GSQL-DSEP算法分别优化出租车路径规划决策问题中的路径长度与交通信号灯控制问题中的车辆总等待时间。相较于Q学习、快速Q学习(SQL)、、广义快速Q学习(GSQL)、Dyna-Q算法,GSQL-DSEP算法在性能测试中降低了至少18.7%的误差,在出租车路径规划决策问题中使决策路径长度至少缩短了17.4%,在交通信号灯控制问题中使车辆总等待时间最多减少了51.5%。实验结果表明,相较于对比算法,GSQL-DSEP算法对解决交通情景问题更具优势。 相似文献
3.
针对固定翼无人机纵向控制的高性能需求,提出一种控制系统性能优化结构.该结构包括一个使系统稳定的标称控制器和一个参与性能优化的增量式控制器.控制系统增量式的实现不会改变原有的控制系统,而是仅对标称控制系统做控制输入的补偿与控制性能的优化.基于Q学习理论进行增量式控制器设计,针对状态信息完全可获得的系统,设计一种基于状态反馈的增量式Q学习算法.当状态信息不能完全获得时,利用系统输入、输出和参考信号数据,设计一种基于输出反馈的增量式Q学习算法.两种增量式控制器均是在数据驱动环境下自适应学习增量式控制律,无需提前知道系统动力学模型以及标称控制器的控制增益.此外,证明了增量式Q学习方法在满足持续激励条件的激励噪声下,对Q函数贝尔曼方程的求解没有偏差.最后,通过对F-16飞行器纵向模型实例的仿真验证该方法的有效性. 相似文献
4.
基于Q学习算法和BP神经网络的倒立摆控制 总被引:37,自引:1,他引:37
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方
法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控
制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]
的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果. 相似文献
5.
Q学习算法是求解信息不完全马尔可夫决策问题的一种强化学习方法.Q学习中强化信号的设计是影响学习效果的重要因素.本文提出一种基于模糊规则的Q学习强化信号的设计方法,提高强化学习的性能.并将该方法应用于单交叉口信号灯最优控制中,根据交通流的变化自适应调整交叉口信号灯的相位切换时间和相位次序.通过Paramics微观交通仿真软件验证,说明在解决交通控制问题中,使用基于模糊规则的Q学习的学习效果优于传统Q学习. 相似文献
6.
针对多目标粒子群优化算法在求解约束优化问题时存在难以兼顾收敛性能和求解质量这一问题,提出一种基于免疫网络的改进多目标粒子群优化算法.该算法通过免疫网络互通种群最优信息达到粒子群算法与人工免疫网络算法的协同搜索,同时给出了速度迁移策略、自适应方差变异策略和基于聚类的免疫网络策略.最后将所提出的方法应用于求解电弧炉供电优化模型,达到了减少电量消耗、缩短冶炼时间、延长炉衬使用寿命的目的,同时表明了该算法的有效性. 相似文献
7.
样本有限关联值递归Q学习算法及其收敛性证明 总被引:5,自引:0,他引:5
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。 相似文献
8.
目标规划法在预测控制滚动优化及在线辨识中的应用 总被引:4,自引:1,他引:4
针对有约束多目标多自由度预测控制问题,应用目标规划方法,提出了一种既适合于
参数模型又适合于非参数模型的在线滚动优化策略,并且通过计算饥仿真研究,验证了该方法
的有效性.然后,对于参数模型预测控制问题,提出了一种抗扰动的最小绝对值辨识算法.由于
该辨识算法可用目标规划快速求解,因此可作为慢时变工业过程控制的在线辨识算法. 相似文献
9.
10.
11.
12.
基于有限样本的最优费用关联值递归Q学习算法 总被引:4,自引:2,他引:4
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。 相似文献
13.
14.
15.
碳排放预警决策系统可通过计算、分析相关的数据,判断碳排放强度,并输出相应的碳减排决策。对碳排放预警决策系统进行了研究和设计,深入分析了系统开发的关键技术和存在的问题,提出了相应的解决方案。该系统可判断碳强度,并利用Web GIS提供的地理信息,经由基于聚类Q学习算法的专家系统,输出有效的碳减排决策,以达到预警和决策的目的。该系统具有易操作、可扩展等特点,为制定碳减排策略提供参考依据。 相似文献
16.