期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

任安妮周大可冯锦浩唐慕尧李涛《计算机应用研究》2023,40(2)

深度强化学习（DRL）广泛应用于具有高度不确定性的城市交通信号控制问题中,但现有的DRL交通信号控制方法中,仅仅使用传统的深度神经网络,复杂交通场景下其感知能力有限。此外,状态作为强化学习的三要素之一,现有方法中的交通状态也需要人工精心的设计。因此,提出了一种基于注意力机制（attention mechanism）的DRL交通信号控制算法。通过引入注意力机制,使得神经网络自动地关注重要的状态分量以增强网络的感知能力,提升了信号控制效果,并减少了状态向量设计的难度。在SUMO（simulation of urban mobility）仿真平台上的实验结果表明,在单交叉口、多交叉口中,在低、高交通流量条件下,仅仅使用简单的交通状态,与三种基准信号控制算法相比,所提算法在平均等待时间、行驶时间等指标上都具有最好的性能。相似文献

2.

基于深度强化学习的城市交通信号控制算法

舒凌洲吴佳王晨《计算机应用》2019,39(5):1495-1499

针对城市交通信号控制中如何有效利用相关信息优化交通控制并保证控制算法的适应性和鲁棒性的问题，提出一种基于深度强化学习的交通信号控制算法，利用深度学习网络构造一个智能体来控制整个区域交通。首先通过连续感知交通环境的状态来选择当前状态下可能的最优控制策略，环境的状态由位置矩阵和速度矩阵抽象表示，矩阵表示法有效地抽象出环境中的主要信息并减少了冗余信息；然后智能体以在有限时间内最大化车辆通行全局速度为目标，根据所选策略对交通环境的影响，利用强化学习算法不断修正其内部参数；最后，通过多次迭代，智能体学会如何有效地控制交通。在微观交通仿真软件Vissim中进行的实验表明，对比其他基于深度强化学习的算法，所提算法在全局平均速度、平均等待队长以及算法稳定性方面展现出更好的结果。其中，与基线相比，平均速度提高9%，平均等待队长降低约13.4%。实验结果证明该方法能够适应动态变化的复杂的交通环境。相似文献

3.

拟双曲动量梯度的对抗深度强化学习研究

下载免费PDF全文

马志豪朱响斌《计算机工程与应用》2021,57(24):90-99

在深度强化学习（Deep Reinforcement Learning,DRL）中,智能体（agent）通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法（QHM）来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法（SGD）在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。相似文献

4.

基于多智能体交通绿波效应分布式协同控制算法 总被引：1，自引：0，他引：1

徐杨张玉林孙婷婷苏艳芳《软件学报》2012,23(11):2937-2945

基于"绿波"效应的交通控制通过实现干道上的车流不间断地经过多个交通灯路口而不停止,是目前公认的最有效率的交通控制策略之一.然而随着城市交通规模的不断扩大,传统的集中式交通控制方法可能遇到计算和通信上的瓶颈.而当路口交通灯只能获取城市交通网络全局有限的信息时,传统的分布式控制方法可能十分低效.提出了一种基于多智能体的交通灯分布式绿波自适应控制方法.在该设计中,每一个交通灯路口通过一个非集中式的协同智能体来控制.其核心是,智能体通过预测自身下一时刻的状态进行自主决策.由于只有来自邻居路口的车辆能够直接影响当前路口下一步的状态,这一决策过程仅需要智能体通过与邻居智能体间的局部交互来完成.描述了基于多智能体交通灯分布式"绿波"效应的控制算法,并通过仿真实验验证了该方法在大规模城市交通系统中的可行性. 相似文献

5.

基于深度强化学习的雷达智能抗干扰决策FPGA加速器设计

李梓瑜葛芬张劲东赵家琛《数据采集与处理》2023,38(5):1151-1161

针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络（Deep Q network,DQN）模型,并在此基础上提出了一种基于现场可编程门阵列（Field programmable gate array,FPGA）的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。相似文献

6.

面向频谱接入深度强化学习模型的后门攻击方法

魏楠魏祥麟范建华薛羽胡永扬《计算机科学》2023,(1):351-361

深度强化学习(Deep Reinforcement Learning, DRL)方法以其在智能体感知和决策方面的优势,在多用户智能动态频谱接入问题上得到广泛关注。然而,深度神经网络的弱可解释性使得DRL模型容易受到后门攻击威胁。针对认知无线网络下基于深度强化学习模型的动态频谱接入(Dynamic Spectrum Access, DSA)场景,提出了一种非侵入、开销低的后门攻击方法。攻击者通过监听信道使用情况来选择非侵入的后门触发器,随后将后门样本添加到次用户的DRL模型训练池,并在训练阶段将后门植入DRL模型中;在推理阶段,攻击者主动发送信号激活模型中的触发器,使次用户做出目标动作,降低次用户的信道接入成功率。仿真结果表明,所提后门攻击方法能够在不同规模的DSA场景下达到90%以上的攻击成功率,相比持续攻击可以减少20%～30%的攻击开销,并适用于3种不同类型的DRL模型。相似文献

7.

基于奖励预测误差的内在好奇心方法

谭庆李辉吴昊霖王壮邓书超《计算机应用》2022,42(6):1822-1828

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能有效探索环境的问题,提出一种基于奖励预测误差的内在好奇心模块（RPE-ICM）。RPE-ICM利用奖励预测误差网络（RPE-Network）学习并修正状态预测误差奖励,并将奖励预测误差（RPE）模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的MuJoCo环境中使用RPE-ICM、内在好奇心模块（ICM）、随机蒸馏网络（RND）以及传统的深度确定性策略梯度（DDPG）算法进行对比实验。结果表明,相较于传统DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper环境中分别提高了13.85%、13.34%和20.80%。相似文献

8.

自动驾驶车辆在无信号交叉口右转驾驶决策技术研究

王曙燕万顷田《计算机应用研究》2023,40(5)

利用深度强化学习（deep reinforcement learning,DRL）技术实现自动驾驶决策已成为国内外研究热点,现有研究中的车辆交通流缺乏随机性与真实性,同时自动驾驶车辆在环境中的有效探索具有局限性。因此利用TD3算法进行自动驾驶车辆在无信号交叉口下的右转驾驶决策研究,首先在Carla仿真平台中开发无信号交叉口的训练与测试场景,并添加交通流管理功能,提高系统训练和测试随机性。其次,为了提高自动驾驶车辆的探索性,对TD3算法中的Actor网络进行改进,为目标动作添加OU噪声。最后使用通行成功率和平均通行时间评估指标评价自动驾驶行为决策。结果表明,在不同交通流场景下,改进后的TD3算法通行成功率与基于DDPG算法控制的车辆相比平均提升6.2%,与基于规则的AEB模型相比平均提升23%。改进后的TD3算法不仅能够探索更多可能,而且其通行决策表现更加突出。相似文献

9.

自适应遗传算法的Multi-Agent交通信号优化控制

曹洁张玲《计算机工程与应用》2016,52(13):265-270

在区域交通多智能体信号控制系统中,由于传统遗传算法早熟收敛,全局搜索能力不强,无法快速找到最佳配时方案,同时没有考虑相邻交叉口的关联性,针对这种情况,提出交叉口子区Agent代替传统的交叉口Agent,在交叉口子区Agent中引入自适应遗传算法,算法根据交通流量的变化对绿信比[λ]进行优化,使交叉口平均延误时间[D]最短。实验结果表明交叉口子区Agent代替交叉口Agent后,控制效果相似,节省了硬件资源,在交叉口子区Agent中引入自适应遗传算法下的信号控制能迅速找到最佳配时方案,使平均延误时间最短。仿真实验表明,将基于自适应遗传算法的交叉口区域控制应用到交叉口信号控制中有更好的性能,证明了用交叉口区域智能体替代交叉口智能体的可行性。相似文献

10.

深度强化学习求解车辆路径问题的研究综述

下载免费PDF全文

杨笑笑柯琳陈智斌《计算机工程与应用》2023,59(5):1-13

车辆路径问题（VRP）是组合优化问题中经典的NP难问题,广泛应用于交通、物流等领域,随着问题规模和动态因素的增多,传统算法很难快速、智能地求解复杂的VRP问题。近年来随着人工智能技术的发展,尤其是深度强化学习（DRL）在AlphaGo中的成功应用,为路径问题求解提供了全新思路。鉴于此,针对近年来利用DRL求解VRP及其变体问题的模型进行文献综述。回顾了DRL求解VRP的相关思路,并梳理基于DRL求解VRP问题的关键步骤,对基于指针网络、图神经网络、Transformer和混合模型的四类求解方法分类总结,同时对目前基于DRL求解VRP及其变体问题的模型性能进行对比分析,总结了基于DRL求解VRP问题时遇到的挑战以及未来的研究方向。相似文献

11.

基于深度强化学习的多路口信号控制优化研究

赵纯董小明《计算机应用研究》2022,39(8)

新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件（SUMO）完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。相似文献

12.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

13.

基于深度强化学习的交通信号控制方法

孙浩陈春林刘琼赵佳宝《计算机科学》2020,47(2):169-174

交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。相似文献

14.

基于深度强化学习的有轨电车信号优先控制

王云鹏郭戈《自动化学报》2019,45(12):2366-2377

现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率. 相似文献

15.

Traffic Signal Timing via Deep Reinforcement Learning

下载免费PDF全文

Li Li Yisheng Lv Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》2016,3(3):247-254

In this paper, we propose a set of algorithms to design signal timing plans via deep reinforcement learning. The core idea of this approach is to set up a deep neural network (DNN) to learn the Q-function of reinforcement learning from the sampled traffic state/control inputs and the corresponding traffic system performance output. Based on the obtained DNN, we can find the appropriate signal timing policies by implicitly modeling the control actions and the change of system states. We explain the possible benefits and implementation tricks of this new approach. The relationships between this new approach and some existing approaches are also carefully discussed. 相似文献

16.

大规模智慧交通信号控制中的强化学习和深度强化学习方法综述

下载免费PDF全文

翟子洋郝茹茹董世浩《计算机应用研究》2024,41(6)

当前在交通信号控制系统中引入智能化检测和控制已是大势所趋,特别是强化学习和深度强化学习方法在可扩展性、稳定性和可推广性等方面展现出巨大的技术优势,已成为该领域的研究热点。针对基于强化学习的交通信号控制任务进行了研究,在广泛调研交通信号控制方法研究成果的基础上,系统地梳理了强化学习和深度强化学习在智慧交通信号控制领域的分类及应用;并归纳了使用多智能体合作的方法解决大规模交通信号控制问题的可行方案,对大规模交通信号控制的交通场景影响因素进行了分类概述;从提高交通信号控制器性能的角度提出了本领域当前所面临的挑战和未来可能极具潜力的研究方向。相似文献

17.

基于一维卷积循环神经网络的深度强化学习算法

下载免费PDF全文

畅鑫李艳斌田淼陈苏逸杜宇峰赵研《计算机测量与控制》2022,30(1):258-265

针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。相似文献

18.

基于改进双重深度Q网络的入侵检测模型

下载免费PDF全文

吴亚丽王君虎郑帅龙《计算机工程与应用》2022,58(16):102-110

入侵检测技术作为网络安全有效的防御手段,是网络安全体系中的重要组成部分。随着互联网的快速发展,网络数据量快速增加,网络攻击更加趋于复杂化和多元化,目前主流的入侵检测技术无法有效识别各种攻击。针对实际网络环境中正常流量和攻击流量数据不平衡,且对攻击类流量检测率低的问题,基于深度强化学习提出一种基于改进双重深度Q网络的CBL_DDQN网络入侵检测模型。该模型将一维卷积神经网络和双向长短期记忆网络的混合网络模型引入深度强化学习的DDQN框架,并使用深度强化学习中的反馈学习和策略生成机制训练智能体来对不同类别的攻击样本进行分类,在一定程度上减弱了训练模型过程中对数据标签的依赖性。采用Borderline-SMOTE算法降低数据的不平衡度,从而提高稀有攻击的检测率。通过NSL_KDD和UNSW_NB15数据集对模型的性能进行评估,结果表明：该模型在准确率、精确率、召回率这三项指标上均取得了良好的结果,检测效果远优于Adam-BNDNN、KNN、SVM等检测方法,是一种高效的网络入侵检测模型。相似文献