基于元生成内在奖励的机器人操作技能学习方法 |
| |
引用本文: | 吴培良,渠有源,李瑶,陈雯柏,高国伟.基于元生成内在奖励的机器人操作技能学习方法[J].计量学报,2023(6):923-930. |
| |
作者姓名: | 吴培良 渠有源 李瑶 陈雯柏 高国伟 |
| |
作者单位: | 1. 燕山大学信息科学与工程学院;2. 河北省计算机虚拟技术与系统集成重点实验室;3. 北京信息科技大学自动化学院 |
| |
基金项目: | 国家重点研发计划(2018YFB1308300);;国家自然科学基金(62276028,U20A20167);;北京市自然科学基金(4202026);;河北省自然科学基金(F202103079); |
| |
摘 要: | 针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复杂任务分解为多个子任务的元生成内在奖励框架,对子任务进行能力评价;再引入生成内在奖励模块,将智能体探索得到状态的新颖性作为内在奖励,并联合环境奖励共同指导智能体完成对环境的探索和特定任务的学习;最后,在MuJoCo仿真环境Fetch中对离线策略强化学习进行对比实验。实验结果表明,无论是在训练效率还是在成功率方面,提出的元生成内在奖励算法均表现较好。
|
关 键 词: | 计量学 机器人操作技能学习 稀疏奖励 强化学习 元学习 生成内在奖励 |
|
|