首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张建行  刘全 《计算机科学》2021,48(10):37-43
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.  相似文献   

2.
赵英男  刘鹏  赵巍  唐降龙 《自动化学报》2019,45(10):1870-1882
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果.  相似文献   

3.
时圣苗  刘全 《自动化学报》2022,48(7):1816-1823
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.  相似文献   

4.
为减少深度Q网络算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。  相似文献   

5.
经验分布函数概率模型的分布估计算法   总被引:2,自引:0,他引:2       下载免费PDF全文
连续域分布估计算法普遍采用高斯概率模型,假设变量服从高斯分布。该假设并不具有普遍意义。提出一个任意分布的连续多变量耦合分布估计算法,利用经验分布函数从样本估计分布,采样产生新的个体。描述经验分布函数和逆变换法采样,讨论用样本构造经验分布函数并采样的基本思想,给出一次采样算法及完整的分布估计算法,通过典型函数的仿真实验,说明方法的正确性和有效性。  相似文献   

6.
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。  相似文献   

7.
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互的试错决策过程中产生,其中会存在相似的关键状态.以两条序列轨迹中的相似状态作为交叉点,能产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本的多样性的目的,进而增加智能体的探索能力,提高样本效率.与深度Q网络随机采样训练样本和采用序列样本向后更新的算法(Episodic Backward Update,EBU)进行对比,所提出的方法在Playing Atari 2600视频游戏中能取得更高的奖赏值.  相似文献   

8.
陈勃  王锦艳 《计算机应用》2019,39(11):3242-3249
针对深度Q网络(DQN)应用中基于python数据结构直接实现的经验回放过程时常成为性能瓶颈,提出一种具有高性能及通用性的经验回放模块设计方案。该设计方案具有两层软件结构:底层的功能内核由C++语言实现,以提供较高的执行效率;上层则由python语言编写,以面向对象的方式封装模块功能并提供调用接口,使模块具有较高易用性。针对经验回放所涉及的关键操作,一些技术细节被充分研究和精心设计,例如,将优先级回放机制作为附属组件与模块的主体运行逻辑分离,将样本的可抽取性验证提前到样本记录操作中进行,使用高效的样本淘汰策略与算法等。这些措施使模块具有较高的通用性和可扩展性。实验结果表明,按照该模块实现的经验回放过程,整体执行效率得到了充分优化,两个关键操作——样本记录与样本抽取,皆可高效执行。与基于python数据结构的直接实现方式相比,所提模块在样本抽取操作上的性能提升了约100倍,从而避免了经验回放过程成为整个系统的性能瓶颈,满足了各类DQN相关应用项目的需要。  相似文献   

9.
无线传感器网络中移动节点定位算法研究   总被引:1,自引:0,他引:1  
提出一种利用临时锚节点的蒙特卡罗箱定位算法.该算法是基于蒙特卡罗定位方法之上,通过引入节点平均速率来获取临时锚节点,并利用一跳范围内的临时锚节点构建最小锚盒、增强样本过滤条件,从而加速了采样和样本过滤.此外,在样本的获取上采用了非随机采样的均衡采样方法,有效地降低了采样次数.仿真结果表明:该算法同蒙特卡罗定位算法等相比,提高了节点的定位精度,降低了节点的能耗.  相似文献   

10.
夏琳  罗威  王俊霞  黄一学 《软件》2023,(2):17-22+41
【目的】针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验回放的MAAC(Actor-Attention-Critic for Multi-Agent Reinforcement Learning,MAAC)多智能体强化学习(Hindsight Experience Replay Machanism of MAAC Algorithm,HER-MAAC)算法。【方法】利用失败的探索经验,将依据后验经验回放算法选取的目标重新计算奖励值,存入回放缓冲区中,增大回放缓冲区中成功经验的比例,从而提升样本抽取效率。【结果】实验结果显示,HER-MAAC相较原始MAAC算法,智能体成功率提升,奖励值也明显提高。在典型试验环境下,训练3个智能体胜率提高了7.3%,智能体数量为4时胜率提高8.1%,智能体数目为5时胜率提高5.7%。【结论】研究成果表明,改进后的算法能够有效提升多智能体训练效率。  相似文献   

11.
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。  相似文献   

12.
兵棋推演与智能算法融合成为当前军事应用领域的研究热点,利用深度强化学习技术实现仿真推演中决策过程的智能化,可显著减少人为经验对决策过程的影响,提高推演效率和灵活性.现有基于DRL算法的决策模型,其训练时间过长,算力开销过大,无法满足作战任务的实时性需求.本文提出一种基于轻量级深度确定性策略梯度(BN-DDPG)算法的智能推演方法,根据推演规则,采用马尔可夫决策过程描述推演过程中的决策行为,以actorcritic体系为基础,构建智能体训练网络,其中actor网络使用自定义混合二进制神经网络,减少计算量;同时根据经验样本的状态和回报值建立双缓冲池结构,采用环境相似度优先提取的方法对样本进行采样,提高训练效率;最后基于自主研制的仿真推演平台进行实例验证.结果表明, BN-DDPG算法可简化模型训练过程,加快模型收敛速度,显著提高推演决策的准确性.  相似文献   

13.
基于深度强化学习的机器人操作技能学习成为研究热点, 但由于任务的稀疏奖励性质, 学习效率较低. 本 文提出了基于元学习的双经验池自适应软更新事后经验回放方法, 并将其应用于稀疏奖励的机器人操作技能学习 问题求解. 首先, 在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数, 并加入温度自适应 调整策略, 动态调整温度参数以适应不同的任务环境; 其次, 结合元学习思想对经验回放进行分割, 训练时动态调整 选取真实采样数据和构建虚拟数的比例, 提出了DAS-HER方法; 然后, 将DAS-HER算法应用到机器人操作技能学 习中, 构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架; 最后, 在Mujoco下的Fetch和Hand环境 中, 进行了8项任务的对比实验, 实验结果表明, 无论是在训练效率还是在成功率方面, 本文算法表现均优于其他算 法.  相似文献   

14.
随机欠采样方法忽略潜在有用的大类样本信息,在面对多类分类问题时更为突出.文中提出多类类别不平衡学习算法:EasyEnsemble.M.该算法通过多次针对大类样本随机采样,充分利用被随机欠采样方法忽略的潜在有用的大类样本,学习多个子分类器,利用混合的集成技术最终得到性能较优的强分类器.实验结果表明,与常用的多类类别不平衡学习算法相比,EasyEnsemble.M可有效提高分类器的G-mean值.  相似文献   

15.
近年来,以DQN(Deep Q-Network)为代表的人工智能技术在路径规划领域中广泛应用.为了解决传统DQN方法存在收敛速度较慢的问题,本文提出一种端到端的D3QN-PER(Dueling Deep Double Q-Network Prioritized Experience Replay)路径规划方法.首先,在感知端引入长短时记忆网络(Long Short-Term Memory),障碍物状态信息作为输入,进行取舍后储存在隐藏层,再转换成固定长度的向量和机器人自身状态向量输入至D3QN网络,提高记忆和认知障碍物的能力.然后,采用优先经验回放机制(Prioritized Experience Replay, PER)对经验池抽取小批量样本,保证样本多样性的同时提高重要样本的利用率,获取更加精确的Q值.最后,通过3个不同仿真场景进行验证,分别对DQN、DDQN、D3QN、D3QN-PER展开训练,实验结果表明,与其他方法相比,D3QN-PER的收敛速度比DQN算法提高56%,而且到达目标点的次数更多,可证明该方法在未知环境中可以更好地获取最优路径.  相似文献   

16.
研究了一种脉冲信号激励的漏磁检测系统;利用USB数据采集卡I/O口输出脉冲方波信号经过功率放大环节生成激励信号,通过数据采集卡触发采样功能实现检测信号的同步采样;基于Labview软件搭建了漏磁检测虚拟仪器平台,实现了漏磁检测信号的采集、调理、储存、回放和分析功能;通过实验对加工有宽度为2mm深度分别为2mm、5mm、10mm的3个裂纹缺陷的钢样本进行检测,应用霍尔传感器检测漏磁场信号;检测信号经过调理和采集,在电脑中实时显示漏磁信号随时间的变化波形;通过分析回放采样信号的峰值和峰值到达时间评估缺陷的位置和深度;实验结果表明缺陷深度越大采样信号的峰值越大,峰值到达时间越长。  相似文献   

17.
为了渲染含大量动态光源的动态场景,提出一种时空重采样算法.首先利用实时随机光源裁剪对光源进行重要性采样,生成重采样样本;然后提出一种快速时空样本有效性判断方式,通过检查几何属性与可见性,避免错误选择重采样样本而引入误差;最后通过重采样复用时空样本,依样本权重选择重要样本进行着色,提高样本质量.自建场景与NVIDIA ORCA场景的实验结果表明,所提算法能够取得较好的采样质量,通过修改空间重采样数可平衡该算法的耗时与渲染质量,使之具有一定的拓展性;与实时随机光源裁剪算法相比,在相同采样数时该算法能够取得更高的渲染质量,而渲染质量相近时该算法耗时可减少20%~40%.  相似文献   

18.
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.  相似文献   

19.
为改善传统粒子滤波中的样本退化和样本枯竭问题, 提出一种新的粒子滤波算法. 在重要性采样中, 利用最新测量值, 结合差分滤波算法产生重要性函数; 在再采样中, 利用高斯混合模型近似状态的后验概率密度, 引入最大期望算法计算该高斯混合模型的参数, 并从该新分布中采样后验粒子集, 取代传统的再采样. 从而通过提高重要性函数对状态后验概率密度的逼近程度来缓解样本退化问题, 通过改进再采样实现过程来缓解样本枯竭问题. 把新算法应用到INS/GPS组合导航系统中, 仿真结果表明新算法的估计性能明显优于粒子滤波.  相似文献   

20.
针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行采样操作,利用其概率密度函数对新样本的分布密度进行构造,以此达到平衡数据集的目...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号