首页 | 本学科首页   官方微博 | 高级检索  
     

基于轨迹感知的稀疏奖励探索方法
引用本文:张启阳,陈希亮,张巧.基于轨迹感知的稀疏奖励探索方法[J].计算机科学,2023(1):262-269.
作者姓名:张启阳  陈希亮  张巧
作者单位:陆军工程大学指挥控制工程学院
基金项目:国家自然科学基金(61806221)~~;
摘    要:现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic, A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。

关 键 词:人工智能  知识迁移  深度强化学习  A3C算法  探索-利用问题
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号