首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
Q学习算法在库存控制中的应用
引用本文:
蒋国飞, 吴沧浦. Q学习算法在库存控制中的应用. 自动化学报, 1999, 25(2): 236-241.
作者姓名:
蒋国飞
吴沧浦
作者单位:
1.北京理工大学自动控制系,北京
摘 要:
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
关 键 词:
Q学习
马尔可夫决策过程
库存控制
连续状态和决策空间
探索策略
收稿时间:
1997-04-14
本文献已被
CNKI
维普
万方数据
等数据库收录!
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载
免费
的PDF全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号