首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 453 毫秒
1.
随着神经网络的兴起,强化学习在许多传统游戏上的表现越来越好.然而这些表现并不能应用于自动驾驶当中,因为现实世界中的状态空间极其复杂,而且动作空间是连续的,需要精细的控制.为了保证自动驾驶在复杂环境下的稳定性,选用Deep Deterministic Policy Gradient(DDPG)算法代替传统控制方法,此算法...  相似文献   

2.
提出了一种基于递深度递归强化学习的自动驾驶策略模型学习方法,并在TORCS虚拟驾驶引擎进行仿真验真.针对Actor-Critic框架过估计和更新缓慢的问题,结合clipped double DQN,通过取最小估计值的方法缓解过估计的情况.为了获取多时刻状态输入以帮助智能体更好的决策,结合递归神经网络,设计出包含LSTM...  相似文献   

3.
针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采用VAE的特征编码技术,将Carla模拟器获取的语义图像有效转换为状态输入,以此应对DRL在处理复杂自动驾驶任务时的高计算负担。为了解决DRL训练中出现的局部最优和收敛速度慢的问题,引入了驾驶干预机制和基于驾驶员引导的经验回放机制,在训练初期和模型陷入局部最优时进行驾驶干预,以提升模型的学习效率和泛化能力。通过在交通路口左转场景进行的实验验证,结果表明,在驾驶干预机制的帮助下,训练初期模型的性能提升加快,且模型陷入局部最优时通过驾驶干预,模型的性能进一步提升,且在复杂场景下提升更为明显。  相似文献   

4.
在自动驾驶决策方法中,传统模块化方法受限制于数据集的广泛性,基于强化学习的方法难以在高输入维度且动作空间连续的情况下有效学习。为了解决上述问题,提出了一种基于异构融合特征的深度强化学习自动驾驶决策方法,首先使用适量驾驶数据预训练图像降维网络,然后将降维后得到的图像特征和车辆状态特征进行异构融合作为强化学习的输入,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)强化学习框架,通过为自动驾驶量身定制的综合了速度、方向盘角度、车辆位置、碰撞等信息的奖励函数有效引导学习,结合经验池回放技术和目标网络技术提高训练收敛速度。所提方法有效缩短了训练时间,并可在复杂城市环境下保持较高的稳定性与鲁棒性。  相似文献   

5.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG).该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机...  相似文献   

6.
无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。  相似文献   

7.
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法.围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型...  相似文献   

8.
大多传统的无人车控制算法需要人为调整参数,需要算法设计精确规则,无法快速适应多种情况。针对上述问题,该文采用深度强化学习对无人车的方向、速度和刹车三方面进行控制,让无人车自主学习,自主调参。该文重点通过改进OU噪声信号和设计网络结构,实现对无人车的快速控制。在TORCS无人车模拟器的仿真结果表明,改进后的方法误差曲线可以快速的收敛,有效解决了传统无人车控制耗时耗力的问题,对无人车的控制研究有重要的意义。  相似文献   

9.
路径规划是人工智能领域的一个经典问题,在国防军事、道路交通、机器人仿真等诸多领域有着广泛应用,然而现有的路径规划算法大多存在着环境单一、离散的动作空间、需要人工构筑模型的问题.强化学习是一种无须人工提供训练数据自行与环境交互的机器学习方法,深度强化学习的发展更使得其解决现实问题的能力得到进一步提升,本文将深度强化学习的...  相似文献   

10.
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。  相似文献   

11.
将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法(Dropout),即在训练模型时随机丢弃节点,解决过拟合问题。以中国股市为例,选取16只中证100指数成分股作为风险资产进行实验。结果表明,本文基于深度强化学习方法构建的投资组合,在实验期间的价值增幅显著高于对照组(等权重组合),2年达到65%,约为对照组的2.5倍,表明了本文方法的有效性。而且通过进一步实验,表明了当用于训练的数据离测试数据时间越近,则本文构建的投资组合表现越好。  相似文献   

12.
针对于数据中心网络不均衡的流量分布,和在使用固定功能交换机的软件定义网络中部署强化学习模型时,不能精确感知网络状态导致的路由决策偏差问题,设计了一种在具有可编程数据平面的软件定义网络中,基于深度确定性策略梯度(DDPG)强化学习模型的路由优化方法.通过在可编程数据平面自定义数据包处理逻辑,获取细粒度、高精度的网络状态参...  相似文献   

13.
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值.  相似文献   

14.
针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。  相似文献   

15.
在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习...  相似文献   

16.
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dot-product方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中。在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力。将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励。通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点。  相似文献   

17.
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互的试错决策过程中产生,其中会存在相似的关键状态.以两条序列轨迹中的相似状态作为交叉点,能产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本的多样性的目的,进而增加智能体的探索能力,提高样本效率.与深度Q网络随机采样训练样本和采用序列样本向后更新的算法(Episodic Backward Update,EBU)进行对比,所提出的方法在Playing Atari 2600视频游戏中能取得更高的奖赏值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号