首页 | 本学科首页   官方微博 | 高级检索  
     

基于相对熵的元逆强化学习方法
引用本文:吴少波,傅启明,陈建平,吴宏杰,陆悠.基于相对熵的元逆强化学习方法[J].计算机科学,2021,48(9):257-263.
作者姓名:吴少波  傅启明  陈建平  吴宏杰  陆悠
作者单位:苏州科技大学电子与信息工程学院 江苏 苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室 江苏 苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室 江苏 苏州215009;苏州科技大学电子与信息工程学院 江苏 苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室 江苏 苏州215009
摘    要:针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.

关 键 词:逆强化学习  元学习  奖赏函数  相对熵  梯度下降

Meta-inverse Reinforcement Learning Method Based on Relative Entropy
WU Shao-bo,FU Qi-ming,CHEN Jian-ping,WU Hong-jie,LU You.Meta-inverse Reinforcement Learning Method Based on Relative Entropy[J].Computer Science,2021,48(9):257-263.
Authors:WU Shao-bo  FU Qi-ming  CHEN Jian-ping  WU Hong-jie  LU You
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号