期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

免费	1篇
国内免费	1篇

专业分类

自动化技术

2篇

出版年

2019年

2篇

排序方式： 共有2条查询结果，搜索用时 15 毫秒

基于优势学习的深度Q网络

下载免费PDF全文

夏宗涛秦进《计算机工程与应用》2019,55(20):101-106

强化学习问题中，同一状态下不同动作所对应的状态-动作值存在差距过小的现象，Q-Learning算法采用MAX进行动作选择时会出现过估计问题，且结合了Q-Learning的深度Q网络（Deep Q Net）同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题，提出一种基于优势学习的深度Q网络，通过优势学习的方法构造一个更正项，利用目标值网络对更正项进行建模，同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时，更正项为零，不对评估函数的值进行改动，当选择的动作不是最优动作时，更正项的值为负，降低了非最优动作的评估值。和传统的深度Q网络相比，基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值，在krull、seaquest中取得了更加稳定的策略。相似文献

一种深度Q网络的改进算法

夏宗涛秦进《计算机应用研究》2019,36(12)

深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。相似文献