基于优化子目标数的Option-Critic算法 Option-Critic Algorithm Based on Sub-Goal Quantity Optimization期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于优化子目标数的Option-Critic算法

引用本文：	刘成浩,朱斐,刘全.基于优化子目标数的Option-Critic算法[J].计算机学报,2021,44(9):1922-1933.

作者姓名：	刘成浩朱斐刘全

作者单位：	苏州大学计算机科学与技术学院江苏苏州215006;苏州大学计算机科学与技术学院江苏苏州215006;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006

摘要：	时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性.
关键词：	分层深度强化学习时间抽象子目标强化学习 Option
Option-Critic Algorithm Based on Sub-Goal Quantity Optimization

LIU Cheng-Hao,ZHU Fei,LIU Quan.Option-Critic Algorithm Based on Sub-Goal Quantity Optimization[J].Chinese Journal of Computers,2021,44(9):1922-1933.

Authors:	LIU Cheng-Hao ZHU Fei LIU Quan

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏