首页 | 本学科首页   官方微博 | 高级检索  
     

Q学习算法在库存控制中的应用
引用本文:蒋国飞, 吴沧浦. Q学习算法在库存控制中的应用. 自动化学报, 1999, 25(2): 236-241.
作者姓名:蒋国飞  吴沧浦
作者单位:1.北京理工大学自动控制系,北京
摘    要:Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.

关 键 词:Q学习   马尔可夫决策过程   库存控制   连续状态和决策空间   探索策略
收稿时间:1997-04-14
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号