排序方式: 共有5条查询结果,搜索用时 0 毫秒
1
1.
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点;能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享。 相似文献
2.
3.
4.
5.
提出状态探索密度的概念,通过检测状态对智能体探索环境能力的影响来发现学习的子目标并构建对应的Option.用该算法创建Option的再励学习算法能有效提高学习速度.算法具有和任务无关、不需要先验知识等优点,构造出的Option在同一环境下不同任务间可以直接共享. 相似文献
1