期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐志雄曹雷张永亮陈希亮李晨溪《计算机工程与应用》2019,55(7):157-161

针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks（DQN）算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN（Dynamic Target Deep [Q] Network）算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。相似文献

2.

一种二阶TD Error快速Q(λ)算法

傅启明刘全孙洪坤高龙李瑾王辉《模式识别与人工智能》2013,(3):282-292

Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 相似文献

3.

基于重抽样优选缓存经验回放机制的深度强化学习方法

陈希亮曹雷李晨溪徐志雄何明《控制与决策》2018,33(4):600-606

针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升. 相似文献

4.

基于模糊深度Q网络的放煤智能决策方法

杨艺王圣文崔科飞费树岷《工矿自动化》2023,(4):78-85

在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络（DQN）对放煤口动作进行决策。然而DQN算法中存在过估计问题,因此提出了一种模糊深度Q网络（FDQN）算法,并应用于放煤智能决策。利用放煤过程中煤层状态的模糊特征构建模糊控制系统,以煤层状态中的煤炭数量和煤矸比例作为模糊控制系统的输入,并将模糊控制系统的输出动作代替DQN算法采用max操作选取目标网络输出Q值的动作,从而提高智能体的在线学习速率和增加放煤动作奖赏值。搭建综放工作面放煤模型,对分别基于DQN算法、双深度Q网络（DDQN）算法、FDQN算法的放煤工艺进行三维数值仿真,结果表明：FDQN算法的收敛速度最快,相对于DQN算法提高了31.6%,增加了智能体的在线学习速率;综合煤矸分界线直线度、尾梁上方余煤和放出体中的矸石数量3个方面,基于FDQN算法的放煤效果最好;基于FDQN算法的采出率最高、含矸率最低,相比基于DQN算法、DDQN算法的采出率分别提高了2.8%,0.7%,含矸率分别降低了2.1%... 相似文献

5.

基于深度确定性策略梯度的智能车汇流模型

吴思凡杜煜徐世杰杨硕杜晨《计算机工程》2020,46(1):87-92

采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求,而深度确定性策略梯度(DDPG)结合策略梯度和函数近似方法,采用与深度Q网络(DQN)相同的网络结构,并使用连续动作空间对问题进行描述,更适合描述智能车速度变化。为此,提出一种基于DDPG算法的智能车汇流模型,将汇流问题转化为序列决策问题进行求解。实验结果表明,与基于DQN的模型相比,该模型的收敛速度较快,稳定性和成功率较高,更适合智能车汇入车辆场景的应用。相似文献

6.

基于深度强化学习的节能工艺路线发现方法

下载免费PDF全文

陶鑫钰王艳纪志成《智能系统学报》2023,18(1):23-35

由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。相似文献

7.

基于DQN的多类型拦截装备复合式反无人机任务分配方法

黄亭飞程光权黄魁华黄金才刘忠《控制与决策》2022,37(1):142-150

针对当前反无人系统无法有效压制无人机的问题,使用多种拦截装备构建一种新的反无人机方法.传统多目标优化算法无法解决动态的任务分配问题,对此,提出一种基于深度Q网络(DQN)的多类型拦截装备复合式反无人机任务分配模型. DQN模块对任务分配问题进行初期决策.为了提高算法收敛速度和学习效率,该方法未采用下一时刻的状态来预测Q值,而是采用当前时刻的状态来预测Q值,消除训练过程中Q值过估计的影响.之后采用进化算法对决策结果进行优化,输出多个拦截方案.以国内某机场跑道周围区域开阔地为防护对象,构建反无人机系统的任务分配仿真环境,仿真结果验证了所提出方法的有效性.同时,将DQN与Double DQN方法相比,所提出改进DQN算法训练的智能体表现更为精确,并且算法的收敛性和所求解的表现更为优异.所提出方法为反无人机问题提供了新的思路. 相似文献

8.

未知饱和控制系统有穷域最优控制

崔小红罗艳红张化光祖培福《控制理论与应用》2016,33(5):631-637

针对带有饱和执行器且局部未知的非线性连续系统的有穷域最优控制问题,设计了一种基于自适应动态规划(ADP)的在线积分增强学习算法,并给出算法的收敛性证明.首先,引入非二次型函数处理控制饱和问题.其次,设计一种由常量权重和时变激活函数构成的单一网络,来逼近未知连续的值函数,与传统双网络相比减少了计算量.同时,综合考虑神经网络产生的残差和终端误差,应用最小二乘法更新神经网络权重,并且给出基于神经网络的迭代值函数收敛到最优值的收敛性证明.最后,通过两个仿真例子验证了算法的有效性. 相似文献

9.

基于平均神经网络参数的DQN算法

黄志勇吴昊霖王壮李辉《计算机科学》2021,48(4):223-228

在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率。实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%。相似文献

10.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

11.

基于递推最小二乘法的多步时序差分学习算法

下载免费PDF全文

陈学松杨宜民《计算机工程与应用》2010,46(8):52-55

强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法（RLS-TD（λ））。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD（0）算法相比,该算法能加快学习过程的收敛,与传统的TD（λ）算法相比,该算法减少了值函数估计误差,从而提高了精度。相似文献

12.

基于深度Q网络的人群疏散机器人运动规划算法

周婉胡学敏史晨寅魏洁玲童秀迟《计算机应用》2019,39(10):2876-2882

针对公共场合密集人群在紧急情况下疏散的危险性和效果不理想的问题，提出一种基于深度Q网络（DQN）的人群疏散机器人的运动规划算法。首先通过在原始的社会力模型中加入人机作用力构建出人机社会力模型，从而利用机器人对行人的作用力来影响人群的运动状态；然后基于DQN设计机器人运动规划算法，将原始行人运动状态的图像输入该网络并输出机器人的运动行为，在这个过程中将设计的奖励函数反馈给网络使机器人能够在"环境-行为-奖励"的闭环过程中自主学习；最后经过多次迭代，机器人能够学习在不同初始位置下的最优运动策略，最大限度地提高总疏散人数。在构建的仿真环境里对算法进行训练和评估。实验结果表明，与无机器人的人群疏散算法相比，基于DQN的人群疏散机器人运动规划算法使机器人在三种不同初始位置下将人群疏散效率分别增加了16.41%、10.69%和21.76%，说明该算法能够明显提高单位时间内人群疏散的数量，具有灵活性和有效性。相似文献

13.

MEC中卸载决策与资源分配的深度强化学习方法

杨天杨军《计算机工程》2021,47(8):37-44

在移动边缘计算（MEC）服务器计算资源有限且计算任务具有时延约束的情况下,为缩短任务完成时间并降低终端能耗,提出针对卸载决策与资源分配的联合优化方法。在多用户多服务器MEC环境下设计一种新的目标函数以构建数学模型,结合深度强化学习理论提出改进的Nature Deep Q-learning算法Based DQN。实验结果表明,在不同目标函数中,Based DQN算法的优化效果优于全部本地卸载算法、随机卸载与分配算法、最小完成时间算法和多平台卸载智能资源分配算法,且在新目标函数下优势更为突出,验证了所提优化方法的有效性。相似文献

14.

边缘计算中基于深度Q网络的物理层假冒攻击检测方法

杨建喜张媛利蒋华朱晓辰《计算机应用》2020,40(11):3229-3235

针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题,提出了一种基于深度Q网络（DQN）的物理层假冒攻击检测算法。首先,构建边缘计算网络中的假冒攻击模型,接收端基于物理层信道状态信息（CSI）建立假设检验,并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量;其次,利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值;最后,通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明,信干噪比（SINR）和信道增益比对检测算法性能有一定的影响,但在信道增益相对变化不超过0.2时,误报率、漏检率和平均错误率低于5%,因此该检测算法能够自适应边缘计算动态变化的网络环境。相似文献

15.

边缘计算中基于深度Q网络的物理层假冒攻击检测方法

杨建喜张媛利蒋华朱晓辰《计算机应用》2005,40(11):3229-3235

针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题，提出了一种基于深度Q网络（DQN）的物理层假冒攻击检测算法。首先，构建边缘计算网络中的假冒攻击模型，接收端基于物理层信道状态信息（CSI）建立假设检验，并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量；其次，利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值；最后，通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明，信干噪比（SINR）和信道增益比对检测算法性能有一定的影响，但在信道增益相对变化不超过0.2时，误报率、漏检率和平均错误率低于5%，因此该检测算法能够自适应边缘计算动态变化的网络环境。相似文献

16.

深度Q学习的二次主动采样方法

赵英男刘鹏赵巍唐降龙《自动化学报》2019,45(10):1870-1882

实现深度Q学习的一种方式是深度Q网络（Deep Q-networks,DQN）.经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error（Temporal-difference error）分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果. 相似文献

17.

递归最小二乘循环神经网络

赵杰张春元刘超周辉欧宜贵宋淇《自动化学报》2022,48(8):2050-2061

针对循环神经网络(Recurrent neural networks, RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大, 提出一种新的迷你批递归最小二乘优化算法. 所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播, 并结合加权线性最小二乘目标函数关于隐藏层线性输出的等效梯度, 逐层导出RNNs参数的迷你批递归最小二乘解. 相较随机梯度下降算法, 所提算法只在RNNs的隐藏层和输出层分别增加了一个协方差矩阵, 其时间复杂度和空间复杂度仅为随机梯度下降算法的3倍左右. 此外, 本文还就所提算法的遗忘因子自适应问题和过拟合问题分别给出一种解决办法. 仿真结果表明, 无论是对序列数据的分类问题还是预测问题, 所提算法的收敛速度要优于现有主流一阶优化算法, 而且在超参数的设置上具有较好的鲁棒性. 相似文献

18.

双蝙蝠群智能优化的多模盲均衡算法

下载免费PDF全文

郭业才吴华鹏《智能系统学报》2015,10(5):755-761

针对常模盲均衡算法(CMA)均衡多模QAM信号收敛速度慢、剩余均方误差大的缺陷,提出了一种基于双蝙蝠群智能优化的多模盲均衡算法(DBSIO-MMA)。该算法将2个蝙蝠群独立全局寻优得到的一组最优位置向量分别作为多模盲均衡算法(MMA)初始化最优权向量的实部与虚部,以此提高收敛速度并减小剩余均方误差。仿真结果表明,蝙蝠算法(BA)全局搜索成功率高、收敛速度快的特点在DBSIO-MMA中得到很好地体现。与CMA、MMA、粒子群多模盲均衡算法(PSO-MMA)、单蝙蝠群多模盲均衡算法(BA-MMA)相比,DBSIO-MMA具有更快的收敛速度和更小的均方误差。相似文献

19.

基于深度强化学习的电力物资配送多目标路径优化

徐郁朱韵攸刘筱邓雨婷廖勇《计算机应用》2022,42(10):3252-3258

针对现有电力物资车辆路径问题（EVRP）优化时考虑目标函数较为单一、约束不够全面,并且传统求解算法效率不高的问题,提出一种基于深度强化学习（DRL）的电力物资配送多目标路径优化模型和求解算法。首先,充分考虑了电力物资配送区域的加油站分布情况、物资运输车辆的油耗等约束,建立了以电力物资配送路径总长度最短、成本最低、物资需求点满意度最高为目标的多目标电力物资配送模型;其次,设计了一种基于DRL的电力物资配送路径优化算法DRL-EVRP求解所提模型。DRL-EVRP使用改进的指针网络（Ptr-Net）和Q-学习（Q-learning）算法结合的深度Q-网络（DQN）来将累积增量路径长度的负值与满意度之和作为奖励函数。所提算法在进行训练学习后,可直接用于电力物资配送路径规划。仿真实验结果表明,DRL-EVRP求解得到的电力物资配送路径总长度相较于扩展C-W(ECW)节约算法、模拟退火（SA）算法更短,且运算时间在可接受范围内,因此所提算法能更加高效、快速地进行电力物资配送路径优化。相似文献