摘 要: | 自主地探索未知室内场景并同时构建地图,是机器人完成许多应用任务的必备前提.基于深度强化学习的方法通过与环境交互的方式,让机器人学会利用室内场景的结构规律,因而有希望获得更加高效和鲁棒的探索策略.现有的方法通常直接控制机器人的运动,导致较长的决策序列,并需要大量的训练样本;或者间接指定长期目标点,却难以保证其可以到达,因而也阻碍了训练的进行.针对这些问题,提出了一种基于经验增强的自主场景探索方法以加速策略的训练并生成更加高效的探索目标.首先引入off-policy的强化学习算法和经验回放缓存机制;然后利用全局探索策略指定长期目标点;接着利用增量启发式寻路算法生成前往目标点的无碰撞路径;在此基础上对每一条探索路径分段并评估子路径的奖励,从而改进已有经验;最后利用时序差分误差对经验进行过滤,并加入经验回放缓存中.该方法能从原本失败的经验中推导出正确的行为,并生成易于到达的长期目标点.实验结果表明,本文方法不仅能明显加速全局探索策略的训练,还能提升训练后系统的整体性能.
|