共查询到20条相似文献,搜索用时 33 毫秒
1.
2.
3.
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。 相似文献
4.
网络上每隔几天都会出现不同的刷Q币教程.所讲述的资料内容.经笔取证实效性都很强.不少ADSL用户都深受其害.造成经济上的损失。更可怕的是目前有很多菜鸟“黑客”,按照网上所提供的资料积极地进行演练。相信大家一定不想让他们刷Q币到自己的“头上”,那么一起来学习下防御方法吧! 相似文献
5.
前几天舍友的QQ会员到期了,于是打算用他自己账户中的Q币续费,没想到Q币都没了,他立刻想到Q币被盗了。为了不再遇到这种问题,我们应该做好预防措施,将自己的Q币“封锁”起来。 相似文献
6.
7.
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态—连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性. 相似文献
8.
9.
10.
11.
蓝魔音悦汇的数码播放器向来给人精巧时尚的感觉,近日笔者提前试用到其新品Q25L.颇觉不错。为什么是“提前试用”呢?这是因为Q25L是先在国外发售的,而到本文发稿时为止,它还没在国内上市。 相似文献
12.
13.
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果. 相似文献
14.
15.
16.
深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-network, AWDDQN),该方法将带权重的双估计器整合到深度双Q网络中.为了进一步地减少目标值的估计误差,通过计算之前学习到的动作估计值的平均值来产生目标值,并且根据时间差分误差动态地确定平均动作值的数量.实验结果表明:AWDDQN方法可以有效减少估计偏差,并且能够提升agent在部分Atari 2600游戏中的表现. 相似文献
18.
小六最近迷恋上了QQ空间里的小游戏——Q宠大乐斗。可由于起步较晚,又没有什么游戏经验,老是被人家虐。有没有什么办法能让小六快速脱离菜鸟的称号,成为一只强力的“霹雳宝贝”呢?当然有,Q宠大乐斗和其他游戏一样,在充分地了解这个游戏的玩法之后, 相似文献
19.
3年前。360退出扣扣保镖。“3Q大战”爆发。2014年2月24日。最高人民法院宣判,“3Q大战”落幕。最高院的判决围绕5个焦点展开,将对我国互联网行业监管起到一定的促进作用。 相似文献
20.
自适应RBF网络Q学习控制 总被引:1,自引:0,他引:1
利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性. 相似文献