基于相对熵的元逆强化学习方法 Meta-inverse Reinforcement Learning Method Based on Relative Entropy期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于相对熵的元逆强化学习方法

引用本文：	吴少波,傅启明,陈建平,吴宏杰,陆悠.基于相对熵的元逆强化学习方法[J].计算机科学,2021,48(9):257-263.

作者姓名：	吴少波傅启明陈建平吴宏杰陆悠

作者单位：	苏州科技大学电子与信息工程学院江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009;苏州科技大学电子与信息工程学院江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009

摘要：	针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.
关键词：	逆强化学习元学习奖赏函数相对熵梯度下降
Meta-inverse Reinforcement Learning Method Based on Relative Entropy

WU Shao-bo,FU Qi-ming,CHEN Jian-ping,WU Hong-jie,LU You.Meta-inverse Reinforcement Learning Method Based on Relative Entropy[J].Computer Science,2021,48(9):257-263.

Authors:	WU Shao-bo FU Qi-ming CHEN Jian-ping WU Hong-jie LU You

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏