强化学习算法中启发式回报函数的设计及其收敛性分析 |
| |
作者姓名: | 魏英姿 赵明扬 |
| |
作者单位: | 中国科学院沈阳自动化所机器人学重点实验室,沈阳,110016;沈阳理工大学,沈阳,110168;中国科学院研究生,北京,100039;中国科学院沈阳自动化所机器人学重点实验室,沈阳,110016 |
| |
基金项目: | 中国科学院先进制造基地创新基金(F010120),973计划课题(2002CB312200) |
| |
摘 要: | (中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
|
关 键 词: | 强化学习 回报函数 马尔可夫决策过程 策略 收敛性 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|