期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

魏楠魏祥麟范建华薛羽胡永扬《计算机科学》2023,(1):351-361

深度强化学习(Deep Reinforcement Learning, DRL)方法以其在智能体感知和决策方面的优势,在多用户智能动态频谱接入问题上得到广泛关注。然而,深度神经网络的弱可解释性使得DRL模型容易受到后门攻击威胁。针对认知无线网络下基于深度强化学习模型的动态频谱接入(Dynamic Spectrum Access, DSA)场景,提出了一种非侵入、开销低的后门攻击方法。攻击者通过监听信道使用情况来选择非侵入的后门触发器,随后将后门样本添加到次用户的DRL模型训练池,并在训练阶段将后门植入DRL模型中;在推理阶段,攻击者主动发送信号激活模型中的触发器,使次用户做出目标动作,降低次用户的信道接入成功率。仿真结果表明,所提后门攻击方法能够在不同规模的DSA场景下达到90%以上的攻击成功率,相比持续攻击可以减少20%～30%的攻击开销,并适用于3种不同类型的DRL模型。相似文献

2.

基于深度强化学习的无信号灯路口决策研究

傅明建郭福强《计算机工程》2024,(5):91-99

无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。相似文献

3.

基于路径规划和深度强化学习的机器人避障导航研究

康振兴《计算机应用与软件》2024,(1):297-303

针对移动机器人的长距离避障导航问题,提出结合深度强化学习(Deep Reinforcement Learning, DRL)和路径规划(Path Planning, PL)的避障导航算法。该方法通过快速扩展随机树(Rapidly Exploring Random Tree, RRT)算法在长距离的路径上进行规划,根据生成的路径节点,将长距离路径划分为若干短距离,而在短距离的导航问题上利用深度强化学习的算法,训练一个具有环境感知和智能决策能力的端到端避障导航模型。仿真实验表明,相较于仅用DRL的避障导航,该方法使移动机器人的长距离避障导航性能有了大幅度提升,解决了DRL在长距离避障导航任务上的局限性问题。相似文献

4.

基于深度强化学习的燃料电池混合动力汽车能量管理策略研究

李卫郑春花许德州《集成技术》2021,10(3):47-60

为提高燃料电池混合动力汽车的燃油经济性和燃料电池寿命,该文提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)的能量管理策略.该策略首先在DRL奖励信号中加入寿命因子,通过降低燃料电池功率波动,起到延长燃料电池寿命的效果;其次,通过限制DRL的动作空间的方法,使燃料电池系统工作在高... 相似文献

5.

基于FPGA的深度强化学习硬件加速技术研究

下载免费PDF全文

凤雷王宾涛刘冰李喜鹏《计算机测量与控制》2022,30(6):242-247

深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。相似文献

6.

基于碰撞危急程度和深度强化学习的实时轨迹规划算法

徐林玲周远黄鸿云刘杨《计算机科学》2023,(3):323-332

动态环境的实时碰撞规避是移动机器人轨迹规划中的一个巨大挑战。针对可变障碍物数量的环境，提出了基于LSTM(Long Short Term Memory)和DRL(Deep Reinforcement Learning)的实时轨迹规划算法Crit-LSTM-DRL。首先，根据机器人和障碍物的状态，预测碰撞可能发生的时间，计算各个障碍物相对于机器人的碰撞危急程度(Collision Criticality);其次，将障碍物根据碰撞危急程度由低到高排序，然后由LSTM模型提取固定维度的环境表征向量；最后，将机器人状态和该环境表征向量作为DRL的输入，计算对应状态的价值。在任何一个时刻，针对每一个动作，通过LSTM和DRL计算下一时刻对应的状态的价值，从而计算当前状态的最大价值以及对应的动作。针对不同环境，训练获得3个模型，即在5个障碍物的环境里训练的模型、在10个障碍物的环境里训练的模型和在可变障碍物数量(1～10)的环境里训练的模型，分析了它们在不同测试环境中的性能。为进一步分析单个障碍物和机器人之间的交互影响，将障碍物表示为障碍物和机器人的联合状态(Joint State),分析了在上述... 相似文献

7.

基于深度学习的矿用救援机器人自动避障方法

李骁龙《自动化应用》2024,(3):15-18

救援机器人自动避障性能存在不足,在实际中救援成功率和避障平滑系数较低,无法达到预期的避障效果,为此,提出基于深度学习的矿用救援机器人自动避障方法。首先,利用电子罗盘和超声波传感器感知救援机器人与障碍物的方位角和距离,搭建救援机器人空间状态;然后,建立具有三层卷积层和两层全连接层结构的深度学习网络模型,并搭建用于深度学习网络模型训练的救援机器人避障动作集合;最后,通过深度学习网络模型训练救援机器人的空间状态信息,提取救援机器人移动的空间特征,自动生成避障决策。实践证明,应用该设计方法后,救援机器人避障成功率在95%以上,平滑系数在0.85以上,具有良好的应用前景。相似文献

8.

面向执行-学习者的在线强化学习并行训练方法

孙正伦乔鹏窦勇李青青李荣春《计算机学报》2023,(2):229-243

近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方法.近同策略方法改善了同策略方法和异策略方法的问题,但是由于其共享内存并行模型的限制,近同策略模型难以扩展到以网络互连的计算集群上,低可扩展性限制了近同策略方法能够利用的资源数量,增加了计算节点的负载,最终导致训练耗时增加.为了提升近同策略方法的可扩展性,提升收敛速度,本文提出了一种以消息传递为基础,使用Gossip算法与模型融合方法的并行执行者-学习者训练框架(Parallel Actor-Learner Architecture,PALA),这一方法通过增强训练的并行性和可扩展性来提升收敛速度.首先,该框架以Gossip算法作为通信基础,借助全局数据代理并使用消息传递模型创建了一套可扩展的多个并行单智能体训练方法.其次,为了保证探索-利用的同策略性,维持训练稳定,本文创建了一套可以用于多机之间进行隐式同步的进程锁.其次,本文面向含... 相似文献

9.

基于分区缓存区重放与多线程交互的多智能体深度强化学习算法

柴来张婷婷董会王楠《计算机学报》2021,44(6):1140-1152

近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提... 相似文献

10.

基于分层深度强化学习的移动机器人导航方法

王童李骜宋海荦刘伟王明会《控制与决策》2022,37(11):2799-2807

针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值. 相似文献

11.

基于不确定性的深度强化学习探索方法综述

逄金辉冯子聪《计算机应用研究》2023,(11):3201-3210

深度强化学习(DRL)近年来在诸多复杂序列决策问题场景中(如游戏人工智能、无人驾驶、机器人和金融等)都取得了重要的成就。然而,在诸多现实场景中,深度强化学习的应用面临着采样成本高昂、效率低下的问题。场景中无处不在的不确定性是影响采样效率的重要原因,基于不确定性的深度强化学习探索方法成为解决上述问题的重要手段。首先简要介绍了深度强化学习中的重要概念和主流算法,列举了三种经典探索方法,并对这些方法面对复杂场景时的不足之处进行了总结;之后,介绍了不确定性的概念,以及将不确定性引入DRL探索问题研究的背景,在此基础上进行了归纳整理,将基于不确定性的探索方法分为基于乐观性、基于环境不确定性、基于偶然不确定性三种形式,详细梳理了各类方法的基本原理和优缺点;最后,展望了基于不确定性的深度强化学习探索研究的挑战与可能的发展方向。相似文献

12.

基于内在动机的深度强化学习探索方法综述

曾俊杰秦龙徐浩添张琪胡越尹全军《计算机研究与发展》2023,(10):2359-2382

近年来，深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而，在具有稀疏奖励、随机噪声等特性的现实应用场景中，该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵，介绍了3种经典探索方法，并讨论了这3种方法在高维或连续场景下的局限性；接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境，在此基础上详细梳理各类探索方法的基本原理、优势和缺陷，包括基于计数、基于知识和基于能力3类方法；然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况；最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望. 相似文献

13.

基于深度学习的个性化聊天机器人研究

王乾铭李吟《计算机技术与发展》2020,(4):79-84

为了对传统的聊天机器人局限性进行改进,增强其回复时的个性化和多样化,并使其具有一定的准确性,研究改进了一种基于深度学习Seq2Seq模型的对话系统。对传统的编码器-解码器(Encoder-Decoder)模型进行了研究,在原有模型的基础上使用了深度LSTM结构并且加入注意力机制使其能更好地适应不同长度的问句。在解码过程中,将原有模型的贪心算法改为了Beam Search算法。在训练过程中,利用了多次训练的方法,训练出模拟电视剧角色的聊天机器人,为聊天机器人赋予一个特定的身份。通过使用两种自动评估指标BLEUs和Distinct-n去测试聊天机器人,并使用一些问句测试聊天机器人的反应,最终实验结果表明新模型与原有的模型相比,两种指标都取得了较好的效果,并且输出句子的合理性以及回复质量也有明显的提高。相似文献

14.

灾害应急场景下基于多智能体深度强化学习的任务卸载策略

米德昌王霄李梦丽秦俊康《计算机应用研究》2023,40(12)

针对传统深度强化学习（deep reinforcement learning,DRL）中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习（MADRL）的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法（ADE）的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络（deep deterministic policy gradient,DDPG）节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。相似文献

15.

无模型强化学习研究综述

秦智慧李宁刘晓彤刘秀磊佟强刘旭红《计算机科学》2021,48(3):180-187

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free... 相似文献

16.

拟双曲动量梯度的对抗深度强化学习研究

下载免费PDF全文

马志豪朱响斌《计算机工程与应用》2021,57(24):90-99

在深度强化学习（Deep Reinforcement Learning,DRL）中,智能体（agent）通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法（QHM）来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法（SGD）在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。相似文献

17.

基于稀疏学习的连续型机械臂自适应控制器

江达蔡志勤刘忠振彭海军吴志刚《控制与决策》2023,38(9):2563-2568

探讨空间连续型机械臂执行在轨操作任务过程中的自适应轨迹跟踪控制器设计问题.首先,对于具有显著非线性特征的连续型机械臂动力学模型,考虑运动过程中存在的建模误差和外部干扰因素,设计变结构动力学控制器;然后,基于深度强化学习(deep reinforcement learning, DRL)对变结构控制器参数进行在线调整,实时优化控制器性能;最后,提出一种针对强化学习网络稀疏训练方法,训练过程中采用具有随机稀疏拓扑结构的稀疏连接层代替神经网络的全连接层,并以一定概率对连接薄弱的网络进行迭代剪枝,使得DRL的策略网络由初始稀疏拓扑结构演化为无标度网络,在不降低训练精度的基础上压缩网络规模.仿真结果表明,所提出基于强化学习的自适应控制器能够有效地进行连续型机械臂的跟踪控制,通过稀疏学习的方法,控制器在保证控制精度的同时,双隐层网络节点参数量下降99%,大幅降低了计算成本. 相似文献

18.

迈进高维连续空间:深度强化学习在机器人领域中的应用

多南讯吕强林辉灿卫恒《机器人》2019,41(2):276-288

首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望. 相似文献

19.

基于元强化学习的自动驾驶算法研究

金彦亮范宝荣高塬《工业控制计算机》2024,(3):24-26

随着深度学习和强化学习的发展,基于深度强化学习的端到端自动驾驶模型的研究已经成为热门研究课题。针对基于深度强化学习的自动驾驶模型“学会学习”能力较差,面临新的驾驶任务时需从零开始训练、训练速度缓慢、泛化性能差等问题,提出了一种基于元强化学习的MPPO(Meta-PPO)自动驾驶模型。MPPO模型将元学习与强化学习相结合,利用元学习算法在元训练阶段为自动驾驶模型训练一组良好的参数,使模型在面临新的驾驶任务时能够在该组参数的基础上,经过少量样本微调就可以快速达到收敛状态。实验结果表明,在导航场景任务中,与基于强化学习的基准自动驾驶模型相比,MPPO模型的收敛速度提高了2.52倍,奖励值提高了7.50%,偏移量减少了7.27%,泛化性能也得到了一定程度的提高,能够应用于多任务场景中。相似文献

20.

基于粒子群优化和深度强化学习的策略搜索方法

彭坤彦尹翔刘笑竹李恒宇《计算机工程与科学》2023,(4):718-725

深度强化学习DRL算法是一种常用的策略搜索方法，已成功应用于一系列具有挑战性的控制任务。但是，由于DRL难以应对奖励稀疏问题，缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性，使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法，它使用整个episode的累积回报作为适应性值，对奖励稀疏的环境不敏感，且该算法也具有基于种群的多样化探索以及稳定的收敛性，但样本效率低。因此，提出了PSO-RL算法，结合PSO和基于策略梯度的离策略DRL算法，DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略，并且每次都将训练后累积奖励得到提升的策略插入PSO种群，增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率，而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明，PSO-RL的性能不仅优于DRL的，且优于进化强化学习算法的。相似文献