基于不确定性估计的离线确定型Actor-Critic |
| |
引用本文: | 冯涣婷,程玉虎,王雪松.基于不确定性估计的离线确定型Actor-Critic[J].计算机学报,2024(4):717-732. |
| |
作者姓名: | 冯涣婷 程玉虎 王雪松 |
| |
作者单位: | 1. 中国矿业大学信息与控制工程学院;2. 江苏信息职业技术学院智能工程学院 |
| |
基金项目: | 国家自然科学基金项目(62373364,62176259);;江苏省重点研发计划项目(BE2022095)资助~~; |
| |
摘 要: | Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题.离线强化学习作为一种基于数据驱动的强化学习范式,强调从静态样本数据集中学习策略,与环境无探索交互,为机器人、自动驾驶、健康护理等真实世界部署应用提供了可行的解决方案,是近年来的研究热点.目前,离线强化学习方法存在学习策略和行为策略之间的分布偏移挑战.针对这个挑战,通常采用策略约束或值函数正则化来限制访问数据集分布之外(Out-Of-Distribution, OOD)的动作,从而导致学习性能过于保守,阻碍了值函数网络的泛化和学习策略的性能提升.为此,本文利用不确定性估计和OOD采样来平衡值函数学习的泛化性和保守性,提出一种基于不确定性估计的离线确定型Actor-Critic方法(Offline Deterministic Actor-Critic based on Uncertainty Estimation, ODACUE).首先,针对确定型策略,给出一种Q值函数的不确定性估计算子定...
|
关 键 词: | 离线强化学习 不确定性估计 分布外采样 凸组合 Actor-Critic |
|
|