首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
张建行  刘全 《计算机科学》2021,48(10):37-43
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.  相似文献   

2.
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。  相似文献   

3.
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。  相似文献   

4.
使用多智能体双延迟深度确定性策略梯度(Multi-agent Twin Delayed Deep Deterministic Policy Gradient,MATD3)算法研究了多无人机的避障和到达目标点问题,首先,利用MATD3算法的优越性提高训练效率。其次,基于人工势场法的思想设计了稠密碰撞奖励函数,使得智能体在没有找到最优解决方案时也能得到积极的反馈,加快学习速度。最后,在仿真实验阶段,通过设计的三组对比实验和泛化实验验证了算法的有效性。  相似文献   

5.
深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。  相似文献   

6.
李丽  郑嘉利  王哲  袁源  石静 《计算机科学》2020,47(2):233-238
针对现有的RFID室内定位算法的精度容易受到环境因素影响的问题,提出了一种基于异步优势动作评价(Asynchronous Advantage Actor-critic,A3C)的RFID室内定位算法。该算法的主要步骤为:1)将RFID的信号强度RSSI值作为输入值,多个线程子动作网络并行交互采样学习,利用子评价网络评价动作值的优劣,使模型不断优化,找到最优信号强度RSSI值,并训练定位模型;子线程网络定期将网络参数异步更新到全局网络上,全局网络最后输出参考标签的具体位置,同时训练得到异步优势动作评价定位模型。2)在线定位阶段,当待测目标进入待测区域时,记录待测目标的信号强度RSSI值,将其输入异步优势动作评价定位模型中,子线程网络从全局网络中获取最新定位信息,对待测目标进行定位,最后输出目标的具体位置。实验数据表明,基于异步优势动作评价的RFID室内定位算法与传统的基于向量机(Support Vector Machines,SVM)定位、基于极限学习机(Extreme Learning Machine,ELM)定位、基于多层神经网络定位(Multi-Layer Perceptron,MLP)的RFID室内定位算法相比,定位平均误差分别下降了66.114%,50.316%,44.494%;定位稳定性分别平均提高了59.733%,53.083%,43.748%。实验结果表明,基于异步优势动作评价的RFID室内定位算法在处理大量室内定位目标时具有较好的定位性能。  相似文献   

7.
移动边缘计算(Mobile Edge Computing, MEC)用于增强低功耗网络的数据处理能力,目前已成为一种高效的计算范例。文中考虑了由多个终端(Mobile Terminal, MT)组成的边云协同系统及其资源分配策略。为降低MTs的时延总和,采用多种卸载模式,提出了基于深度强化学习的任务卸载算法,该算法将深度神经网络(Deep Neural Network, DNN)作为一个可伸缩的解决方案来实现,从经验中学习多进制卸载模式来最小化时延总和。仿真结果表明,与深度Q网络(Deep Q Network, DQN)算法及深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法相比,所提算法在最大性能增益上提升显著。此外,从仿真结果中可以看出,所提算法具有较好的收敛性,该算法的结果接近穷举搜索得到的最优解。  相似文献   

8.
郭方洪  何通  吴祥  董辉  刘冰 《控制理论与应用》2022,39(10):1881-1889
随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度.  相似文献   

9.
文章提出一种基于深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)算法和激光雷达数据的路径规划与导航方法,通过在机器人操作系统(Robot Operating System,ROS)系统中搭建仿真实验环境,验证了该方法的有效性。实验结果表明,该方法在仿真实验中成功实现了机器人的路径规划与导航,具有较好的导航性能。  相似文献   

10.
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。  相似文献   

11.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。  相似文献   

12.
识别和定位为智能停车场等服务领域提供关键信息,基于RFID的LANDMARC算法为常见的室内定位方法。文中对低成本、高精度的经典室内定位算法LANDMARC进行分析,针对其在定位过程中单纯根据信号强度的欧几里得距离选择节点进行定位计算的不足,提出基于双层定位模型的算法D-LANDMRAC。该算法主要由初步定位和精确定位两部分组成,初步定位过滤掉问题参考标签,再基于“距离-损耗冶公式利用标签之间信号强度差进行精确定位。仿真结果表明,相比LANDMARC算法,D-LANDMRAC算法定位精度有了明显的提高,并且定位误差的分布更加均衡。  相似文献   

13.
传统的基于RSSI测距的RFID室内定位系统需要多台天线同时进行测量,使得定位系统部署成本昂贵。而目前只使用一个天线的RFID旋转天线定位方法由于需要测量最大信号强度的角度,需要长期搜索标签,导致系统无法长期稳定工作。为了解决上述问题,提出在天线旋转过程中,获得不同特定角度的等信号强度轨迹,再通过遍历方法求两个椭圆模型的交点,实现定位。最后将该算法在硬件装置上进行了实验,结果表明平均定位误差达到0.754?m,与传统RSSI定位算法相比可以减少36.19%左右的硬件部署成本,同时解决了读写器容易发热的问题。  相似文献   

14.
为提高室内机器人的定位精度,提出一种无源RFID的室内移动机器人定位方法。RFID标签采用蜂窝排布模型,提高读卡器检测效率;对RSSI定位方法按工程实际提出了校正模型,同时针对多信标定位最优值寻优的问题,引入微分进化算法对位置坐标进行求解;在[(4×4) m2]场地内进行了验证,实验结果表明,较极大似然估计具有更高的定位精度,绝对误差小于10.16 cm;较标准遗传算法能够在更少的迭代步内获得最优值,平均节省37%的计算时间。  相似文献   

15.
射频识别技术及其在室内定位中的应用   总被引:24,自引:1,他引:23  
孙瑜  范平志 《计算机应用》2005,25(5):1205-1208
在分析射频识别(RFID)基本原理和特点基础上,重点讨论了基于RFID的LARNDMARC室内定位系统,然后在此基础上提出了一种最近邻居改进算法和基于误差多级处理的数据融合定位方法。仿真结果表明,改进后的最近邻居算法比已有的最近邻居算法的定位精度更好。  相似文献   

16.
基于梯度博弈的RFID室内定位算法   总被引:1,自引:0,他引:1  
施竣严  秦小麟  王宁 《计算机科学》2015,42(11):138-143
随着普适计算的不断发展,室内定位技术成为了当今研究的热点问题。室内空间的复杂性使得室内空间的定位精度一直无法满足应用的需求。为了获得更加高效稳定的算法,提出了一种基于梯度和博弈论的室内定位算法,其能够较为有效地提高室内空间的定位精度。在算法中,提出了一种室内的符号划分方法,并利用其对室内空间进行了分割以辅助定位算法。最后以室内为实验环境对算法进行了验证,分析结果表明,该算法拥有良好的定位效果,并且相对于现有算法更稳定。  相似文献   

17.
基于接收信号强度的射频识别(RFID)定位是一种低成本、便于实现的室内定位方法,针对在RFID室内定位系统中使用参考标签法存在的小样本问题,提出一种基于支持向量回归机(SVR)的RFID室内定位算法。结合无源超高频RFID系统工作原理,在Matlab环境下,对比经典的LANDMARC方法,测试了基于支持向量回归机的定位算法性能,以及互耦效应、多径效应对该算法定位结果的影响。仿真结果表明,相较于LANDMARC方法,所提方法在不增加参考标签数量的情况下定位精度至少提高了25%。  相似文献   

18.
随着普适计算的不断发展,室内定位技术的研究也成为当今研究的热点问题。室内定位技术的不断进步使得RFID也开始部署到各种各样的室内场景。为了提高室内空间中的定位精度,提出了一种基于感知规则集策略的约束空间RFID室内符号定位方法。算法基于室内空间中的符号,通过定义感知情况来确立定位规则,使得算法具有良好的室内空间适应性,且使用少量的阅读器即可实现较高精度的定位。为了提高定位精度,引入了感知规则集的概念,对场景中的情况抽象提取,进一步增加算法定位精度。最后,以约束空间中的室内场景作为实验环境对算法进行验证,分析结果表明,在室内空间中算法的定位精度及抗干扰能力优于现有算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号