排序方式: 共有2条查询结果,搜索用时 6 毫秒
1
1.
针对强化学习的SARSA算法在求解水库随机优化问题中存在的优化性能不高、收敛速度较慢的问题,提出采用基于强化学习的HSARSA(λ)算法进行求解。先在SARSA算法基础上引入效用迹函数得到SARSA(λ)算法,然后加入启发函数得到HSARSA(λ)算法,最后通过不断调整HSARSA(λ)算法的学习率α、折扣因子γ、衰减因子λ等参数求解水库长期随机优化调度问题。实例应用表明,HSARSA(λ)相较于SARSA、SARSA(λ)算法可提升求解精度,减少最优近似解寻优迭代次数,为水库随机优化调度问题提供了一种新的求解思路。 相似文献
2.
梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的联合分布函数;再根据时序差分思想分别建立目标神经网络和主神经网络,分别逼近当前和下一状态对应的动作状态价值,并采用ε-贪婪探索利用策略获取最优调度策略;最后将主要参数分步调优保障调度效益。算例对比表明,深度Q网络算法相较于Q学习算法及其改进算法提升了优化调度目标值,加快收敛速度,有效解决了梯级水库随机优化调度中的维数灾问题。 相似文献
1