首页 | 本学科首页   官方微博 | 高级检索  
     

基于TD-error自适应校正的深度Q学习主动采样方法
引用本文:白辰甲, 刘鹏, 赵巍, 唐降龙. 基于TD-error自适应校正的深度Q学习主动采样方法[J]. 计算机研究与发展, 2019, 56(2): 262-280. DOI: 10.7544/issn1000-1239.2019.20170812
作者姓名:白辰甲  刘鹏  赵巍  唐降龙
作者单位:(哈尔滨工业大学计算机科学与技术学院模式识别与智能系统研究中心 哈尔滨 150001) (bai_chenjia@stu.hit.edu.cn)
基金项目:国家自然科学基金;国家自然科学基金
摘    要:强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.

关 键 词:样本优先级  TD-error校正  自适应  主动采样  深度Q学习  强化学习

Active Sampling for Deep Q-Learning Based on TD-error Adaptive Correction
Bai Chenjia, Liu Peng, Zhao Wei, Tang Xianglong. Active Sampling for Deep Q-Learning Based on TD-error Adaptive Correction[J]. Journal of Computer Research and Development, 2019, 56(2): 262-280. DOI: 10.7544/issn1000-1239.2019.20170812
Authors:Bai Chenjia  Liu Peng  Zhao Wei  Tang Xianglong
Affiliation:(Pattern Recognition and Intelligent System Research Center, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)
Abstract:Bai Chenjia;Liu Peng;Zhao Wei;Tang Xianglong(Pattern Recognition and Intelligent System Research Center,School of Computer Science and Techjiology,Harbin Institute of Technology,Harbin 150001)
Keywords:sample priority  TD-error correction  adaption  active sampling  deep Q-learning  reinforcement learning
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机研究与发展》浏览原始摘要信息
点击此处可从《计算机研究与发展》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号