结构化状态空间中的递阶再励学习方法 |
| |
作者姓名: | 孟江华 朱纪洪 孙增圻 |
| |
作者单位: | 清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084 |
| |
摘 要: | 在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题.
|
关 键 词: | 再励学习(RL) 递阶再励学习 结构化状态空间 |
文章编号: | 1001-0920(2007)02-0233-05 |
收稿时间: | 2005-10-21 |
修稿时间: | 2006-03-06 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《控制与决策》浏览原始摘要信息 |
|
点击此处可从《控制与决策》下载全文 |
|