排序方式: 共有6条查询结果,搜索用时 15 毫秒
1
1.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献
2.
Q学习算法在库存控制中的应用 总被引:9,自引:0,他引:9
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习
方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的
有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法
在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型
未知的工程控制问题中的应用潜力. 相似文献
3.
Q学习算法中网格离散化方法的收敛性分析 总被引:6,自引:1,他引:5
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解。 相似文献
4.
5.
基于Q学习算法和BP神经网络的倒立摆控制 总被引:37,自引:1,他引:37
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方
法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控
制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]
的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果. 相似文献
6.
城市建设进入了一个快速发展的时期,无论公路还是铁路都受到江河的阻隔,随着科学技术的进步和施工水平的提高,人们开始修建过江河、海湾、海峡的水下隧道。水下隧道因跨越江河和海湾的问题,水下隧道对周围环境的影响较小,解决了桥梁对通航能力的限制等问题,使得大江大河上修建的大型水下隧道工程数量逐日增多。而随着沉管法的设计和施工中的关键技术问题得到逐步解决,已受到越来越多国家的重视,并逐渐发展成为水下大型隧道工程的首选。 相似文献
1