Q学习算法在库存控制中的应用 INVENTORY CONTROL USING Q-LEARNING期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Q学习算法在库存控制中的应用

引用本文：	蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241.

作者姓名：	蒋国飞吴沧浦

作者单位：	1.北京理工大学自动控制系,北京

摘要：	Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
关键词：	Q学习马尔可夫决策过程库存控制连续状态和决策空间探索策略
收稿时间：	1997-4-14
INVENTORY CONTROL USING Q-LEARNING

JIANG Guofei,Wu Cangpu.INVENTORY CONTROL USING Q-LEARNING[J].Acta Automatica Sinica,1999,25(2):236-241.

Authors:	JIANG Guofei Wu Cangpu

Affiliation:	1.Department of Automatic Control,Beijing Institute of Technology,Beijing

Abstract:	Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. In this paper, we present a novel exploration strategy and use Q-learning method with this strategy to solve a typical inventory control problem with continuous state and decision space. Simulation results are included to show that the optimal policy given by Q-learning can well approximate to the accurate one.

Keywords:	Q-learning markovian decision problem inventory control continuous state and decision space exploration strategy
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《自动化学报》浏览原始摘要信息
	点击此处可从《自动化学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏