首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep [Q] Network)算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。  相似文献   

2.
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.  相似文献   

3.
针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.  相似文献   

4.
在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络(DQN)对放煤口动作进行决策。然而DQN算法中存在过估计问题,因此提出了一种模糊深度Q网络(FDQN)算法,并应用于放煤智能决策。利用放煤过程中煤层状态的模糊特征构建模糊控制系统,以煤层状态中的煤炭数量和煤矸比例作为模糊控制系统的输入,并将模糊控制系统的输出动作代替DQN算法采用max操作选取目标网络输出Q值的动作,从而提高智能体的在线学习速率和增加放煤动作奖赏值。搭建综放工作面放煤模型,对分别基于DQN算法、双深度Q网络(DDQN)算法、FDQN算法的放煤工艺进行三维数值仿真,结果表明:FDQN算法的收敛速度最快,相对于DQN算法提高了31.6%,增加了智能体的在线学习速率;综合煤矸分界线直线度、尾梁上方余煤和放出体中的矸石数量3个方面,基于FDQN算法的放煤效果最好;基于FDQN算法的采出率最高、含矸率最低,相比基于DQN算法、DDQN算法的采出率分别提高了2.8%,0.7%,含矸率分别降低了2.1%...  相似文献   

5.
采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求,而深度确定性策略梯度(DDPG)结合策略梯度和函数近似方法,采用与深度Q网络(DQN)相同的网络结构,并使用连续动作空间对问题进行描述,更适合描述智能车速度变化。为此,提出一种基于DDPG算法的智能车汇流模型,将汇流问题转化为序列决策问题进行求解。实验结果表明,与基于DQN的模型相比,该模型的收敛速度较快,稳定性和成功率较高,更适合智能车汇入车辆场景的应用。  相似文献   

6.
陶鑫钰    王艳    纪志成   《智能系统学报》2023,18(1):23-35
由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。  相似文献   

7.
针对深度Q学习算法在机器人路径规划中的过估计问题,提出一种动态融合深度双Q算法(dynamic target doub-le deep Q network,DTDDQN).通过动态融合DDQN和平均DQN的先验知识进行网络参数训练,前期以较大权重的DDQN优化目标对估计网络进行网络训练和先验知识的积累,随着学习的深入,增大平均DQN的优化目标对网络训练的权重,使网络输出的Q值更加接近真实Q值,减少过估计对机器人在选择动作时的影响,达到所选策略最优.仿真对比结果表明,DTDDQN算法在路径规划中能更好解决过估计问题,在动作选择方面以及规划路径长度方面都有一定提升.  相似文献   

8.
针对当前反无人系统无法有效压制无人机的问题,使用多种拦截装备构建一种新的反无人机方法.传统多目标优化算法无法解决动态的任务分配问题,对此,提出一种基于深度Q网络(DQN)的多类型拦截装备复合式反无人机任务分配模型. DQN模块对任务分配问题进行初期决策.为了提高算法收敛速度和学习效率,该方法未采用下一时刻的状态来预测Q值,而是采用当前时刻的状态来预测Q值,消除训练过程中Q值过估计的影响.之后采用进化算法对决策结果进行优化,输出多个拦截方案.以国内某机场跑道周围区域开阔地为防护对象,构建反无人机系统的任务分配仿真环境,仿真结果验证了所提出方法的有效性.同时,将DQN与Double DQN方法相比,所提出改进DQN算法训练的智能体表现更为精确,并且算法的收敛性和所求解的表现更为优异.所提出方法为反无人机问题提供了新的思路.  相似文献   

9.
针对带有饱和执行器且局部未知的非线性连续系统的有穷域最优控制问题,设计了一种基于自适应动态规划(ADP)的在线积分增强学习算法,并给出算法的收敛性证明.首先,引入非二次型函数处理控制饱和问题.其次,设计一种由常量权重和时变激活函数构成的单一网络,来逼近未知连续的值函数,与传统双网络相比减少了计算量.同时,综合考虑神经网络产生的残差和终端误差,应用最小二乘法更新神经网络权重,并且给出基于神经网络的迭代值函数收敛到最优值的收敛性证明.最后,通过两个仿真例子验证了算法的有效性.  相似文献   

10.
在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率。实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%。  相似文献   

11.
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。  相似文献   

12.
针对公共场合密集人群在紧急情况下疏散的危险性和效果不理想的问题,提出一种基于深度Q网络(DQN)的人群疏散机器人的运动规划算法。首先通过在原始的社会力模型中加入人机作用力构建出人机社会力模型,从而利用机器人对行人的作用力来影响人群的运动状态;然后基于DQN设计机器人运动规划算法,将原始行人运动状态的图像输入该网络并输出机器人的运动行为,在这个过程中将设计的奖励函数反馈给网络使机器人能够在"环境-行为-奖励"的闭环过程中自主学习;最后经过多次迭代,机器人能够学习在不同初始位置下的最优运动策略,最大限度地提高总疏散人数。在构建的仿真环境里对算法进行训练和评估。实验结果表明,与无机器人的人群疏散算法相比,基于DQN的人群疏散机器人运动规划算法使机器人在三种不同初始位置下将人群疏散效率分别增加了16.41%、10.69%和21.76%,说明该算法能够明显提高单位时间内人群疏散的数量,具有灵活性和有效性。  相似文献   

13.
杨建喜  张媛利  蒋华  朱晓辰 《计算机应用》2020,40(11):3229-3235
针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题,提出了一种基于深度Q网络(DQN)的物理层假冒攻击检测算法。首先,构建边缘计算网络中的假冒攻击模型,接收端基于物理层信道状态信息(CSI)建立假设检验,并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量;其次,利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值;最后,通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明,信干噪比(SINR)和信道增益比对检测算法性能有一定的影响,但在信道增益相对变化不超过0.2时,误报率、漏检率和平均错误率低于5%,因此该检测算法能够自适应边缘计算动态变化的网络环境。  相似文献   

14.
杨天  杨军 《计算机工程》2021,47(8):37-44
在移动边缘计算(MEC)服务器计算资源有限且计算任务具有时延约束的情况下,为缩短任务完成时间并降低终端能耗,提出针对卸载决策与资源分配的联合优化方法。在多用户多服务器MEC环境下设计一种新的目标函数以构建数学模型,结合深度强化学习理论提出改进的Nature Deep Q-learning算法Based DQN。实验结果表明,在不同目标函数中,Based DQN算法的优化效果优于全部本地卸载算法、随机卸载与分配算法、最小完成时间算法和多平台卸载智能资源分配算法,且在新目标函数下优势更为突出,验证了所提优化方法的有效性。  相似文献   

15.
杨建喜  张媛利  蒋华  朱晓辰 《计算机应用》2005,40(11):3229-3235
针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题,提出了一种基于深度Q网络(DQN)的物理层假冒攻击检测算法。首先,构建边缘计算网络中的假冒攻击模型,接收端基于物理层信道状态信息(CSI)建立假设检验,并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量;其次,利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值;最后,通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明,信干噪比(SINR)和信道增益比对检测算法性能有一定的影响,但在信道增益相对变化不超过0.2时,误报率、漏检率和平均错误率低于5%,因此该检测算法能够自适应边缘计算动态变化的网络环境。  相似文献   

16.
郭业才    吴华鹏 《智能系统学报》2015,10(5):755-761
针对常模盲均衡算法(CMA)均衡多模QAM信号收敛速度慢、剩余均方误差大的缺陷,提出了一种基于双蝙蝠群智能优化的多模盲均衡算法(DBSIO-MMA)。该算法将2个蝙蝠群独立全局寻优得到的一组最优位置向量分别作为多模盲均衡算法(MMA)初始化最优权向量的实部与虚部,以此提高收敛速度并减小剩余均方误差。仿真结果表明,蝙蝠算法(BA)全局搜索成功率高、收敛速度快的特点在DBSIO-MMA中得到很好地体现。与CMA、MMA、粒子群多模盲均衡算法(PSO-MMA)、单蝙蝠群多模盲均衡算法(BA-MMA)相比,DBSIO-MMA具有更快的收敛速度和更小的均方误差。  相似文献   

17.
徐郁  朱韵攸  刘筱  邓雨婷  廖勇 《计算机应用》2022,42(10):3252-3258
针对现有电力物资车辆路径问题(EVRP)优化时考虑目标函数较为单一、约束不够全面,并且传统求解算法效率不高的问题,提出一种基于深度强化学习(DRL)的电力物资配送多目标路径优化模型和求解算法。首先,充分考虑了电力物资配送区域的加油站分布情况、物资运输车辆的油耗等约束,建立了以电力物资配送路径总长度最短、成本最低、物资需求点满意度最高为目标的多目标电力物资配送模型;其次,设计了一种基于DRL的电力物资配送路径优化算法DRL-EVRP求解所提模型。DRL-EVRP使用改进的指针网络(Ptr-Net)和Q-学习(Q-learning)算法结合的深度Q-网络(DQN)来将累积增量路径长度的负值与满意度之和作为奖励函数。所提算法在进行训练学习后,可直接用于电力物资配送路径规划。仿真实验结果表明,DRL-EVRP求解得到的电力物资配送路径总长度相较于扩展C-W(ECW)节约算法、模拟退火(SA)算法更短,且运算时间在可接受范围内,因此所提算法能更加高效、快速地进行电力物资配送路径优化。  相似文献   

18.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号