期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

冯天石朝侠王燕清《计算机与数字工程》2022,(9):1929-1934

在自动驾驶决策方法中,传统模块化方法受限制于数据集的广泛性,基于强化学习的方法难以在高输入维度且动作空间连续的情况下有效学习。为了解决上述问题,提出了一种基于异构融合特征的深度强化学习自动驾驶决策方法,首先使用适量驾驶数据预训练图像降维网络,然后将降维后得到的图像特征和车辆状态特征进行异构融合作为强化学习的输入,采用深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）强化学习框架,通过为自动驾驶量身定制的综合了速度、方向盘角度、车辆位置、碰撞等信息的奖励函数有效引导学习,结合经验池回放技术和目标网络技术提高训练收敛速度。所提方法有效缩短了训练时间,并可在复杂城市环境下保持较高的稳定性与鲁棒性。相似文献

2.

基于深度强化学习的自动驾驶策略学习方法

夏伟李慧云《集成技术》2017,6(3):29-40

自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法.首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力.通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90％以上,稳定性能提高超过30％.以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70％以上. 相似文献

3.

基于深度强化学习的自动驾驶技术研究

杨霄李晓婷《网络安全技术与应用》2021,(1)

传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。相似文献

4.

深度纯追随的拟人化无人驾驶转向控制模型

下载免费PDF全文

单云霄黄润辉何泽龚志豪景民邹雪松《中国图象图形学报》2021,26(1):176-185

目的在无人驾驶系统技术中,控制车辆转向以跟踪特定路径是实现驾驶的关键技术之一,大量基于传统控制的方法可以准确跟踪路径,然而如何在跟踪过程中实现类人的转向行为仍是当前跟踪技术面临的挑战性问题之一。现有传统转向模型并没有参考人类驾驶行为,难以实现过程模拟。此外,现有大多数基于神经网络的转向控制模型仅仅以视频帧作为输入,鲁棒性和可解释性不足。基于此,本文提出了一个融合神经网络与传统控制器的转向模型：深度纯追随模型（deep pure pursuit,deep PP）。方法在deep PP中,首先利用卷积神经网络（convolutional neural network,CNN）提取驾驶环境的视觉特征,同时使用传统的纯追随（pure pursuit,PP）控制器融合车辆运动模型以及自身位置计算跟踪给定的全局规划路径所需的转向控制量。然后,通过拼接PP的转向结果向量和视觉特征向量得到融合特征向量,并构建融合特征向量与人类转向行为之间的映射模型,最终实现预测无人驾驶汽车转向角度。结果实验将在CARLA（Center for Advanced Research on Language Acquisition）仿真数据集和真实场景数据集上进行,并与Udacity挑战赛的CNN模型和传统控制器进行对比。实验结果显示,在仿真数据集的14个复杂天气条件下,deep PP比CNN模型和传统转向控制器更贴近无人驾驶仪的转向指令。在使用均方根误差（root mean square error,RMSE）作为衡量指标时,deep PP相比于CNN模型提升了50.28%,相比于传统控制器提升了35.39%。最后,真实场景实验验证了提出的模型在真实场景上的实用性。结论本文提出的拟人化转向模型,综合了摄像头视觉信息、位置信息和车辆运动模型信息,使得无人驾驶汽车的转向行为更贴近人类驾驶行为,并在各种复杂驾驶条件下保持了高鲁棒性。相似文献

5.

基于深度强化学习的单目视觉自动驾驶决策系统

杨明珠《自动化博览》2020,(5):84-88

人工智能和自动驾驶的发展如火如荼,人工智能技术在自动驾驶技术中的应用也越来越多、越来越深入,因此本文提出一种基于深度强化学习的单目视觉自动驾驶决策系统,可以让自动驾驶车辆通过相机作为传感器输入,实现端到端的自动驾驶决策,并且通过设置奖励函数和训练使得车辆的学习效率越来越高,可以在车道内保持直线行驶。相似文献

6.

深度强化学习中稀疏奖励问题研究综述 总被引：1，自引：0，他引：1

杨惟轶白辰甲蔡超赵英男刘鹏《计算机科学》2020,47(3):182-191

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。相似文献

7.

基于动作约束深度强化学习的安全自动驾驶方法

代珊珊刘全《计算机科学》2021,48(9):235-243

随着人工智能的发展,自动驾驶领域的研究也日益壮大.深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一.其中,安全探索问题是该领域的一个研究热点.然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习... 相似文献

8.

基于深度强化学习的交通信号控制方法

孙浩陈春林刘琼赵佳宝《计算机科学》2020,47(2):169-174

交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。相似文献

9.

基于深度强化学习的多旋翼无人机空中目标自主跟踪

下载免费PDF全文

杨兴昊宋建梅佘浩平吴程杰杨钦宁付伟达《计算机测量与控制》2022,30(10):88-94

针对空中对接任务中的目标自主跟踪问题,提出了一种基于深度强化学习的端到端的目标跟踪方法。该方法采用近端策略优化算法,Actor网络与Critic网络共享前两层的网络参数,将无人机所拍摄图像作为卷积神经网络的输入,通过策略网络控制多旋翼无人机电机转速,实现端到端的目标跟踪,同时采用shaping方法以加速智能体训练。通过物理引擎Pybullet搭建仿真环境并进行训练验证,仿真结果表明该方法能够达到设定的目标跟踪要求且具有较好的鲁棒性。相似文献

10.

基于双深度网络的安全深度强化学习方法

朱斐吴文伏玉琛刘全《计算机学报》2019,42(8)

相似文献

11.

基于深度递归强化学习的无人自主驾驶策略研究

李志航《工业控制计算机》2020,(4):61-63

提出了一种基于递深度递归强化学习的自动驾驶策略模型学习方法,并在TORCS虚拟驾驶引擎进行仿真验真。针对Actor-Critic框架过估计和更新缓慢的问题,结合clipped double DQN,通过取最小估计值的方法缓解过估计的情况。为了获取多时刻状态输入以帮助智能体更好的决策,结合递归神经网络,设计出包含LSTM结构的Actor策略网络的Critic评价网络。在TORCS平台仿真实验表明,所提算法相对与传统DDPG算法能有效提高训练效率。相似文献

12.

Human-Like Decision-Making of Autonomous Vehicles in Dynamic Traffic Scenarios

Tangyike Zhang Junxiang Zhan Jiamin Shi Jingmin Xin Nanning Zheng 《IEEE/CAA Journal of Automatica Sinica》2023,10(10):1905-1917

With the maturation of autonomous driving technology, the use of autonomous vehicles in a socially acceptable manner has become a growing demand of the public. Human-like autonomous driving is expected due to the impact of the differences between autonomous vehicles and human drivers on safety.Although human-like decision-making has become a research hotspot, a unified theory has not yet been formed, and there are significant differences in the implementation and performance of existing methods.... 相似文献

13.

基于深度强化学习的燃料电池混合动力汽车能量管理策略研究

李卫郑春花许德州《集成技术》2021,10(3):47-60

为提高燃料电池混合动力汽车的燃油经济性和燃料电池寿命,该文提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)的能量管理策略.该策略首先在DRL奖励信号中加入寿命因子,通过降低燃料电池功率波动,起到延长燃料电池寿命的效果;其次,通过限制DRL的动作空间的方法,使燃料电池系统工作在高... 相似文献

14.

面向无人驾驶时空同步约束制导的安全强化学习

王金永黄志球杨德艳 Xiaowei Huang 祝义华高洋《计算机研究与发展》2021,58(12):2585-2603

无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态-动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性. 相似文献

15.

Traffic Signal Timing via Deep Reinforcement Learning

下载免费PDF全文

Li Li Yisheng Lv Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》2016,3(3):247-254

In this paper, we propose a set of algorithms to design signal timing plans via deep reinforcement learning. The core idea of this approach is to set up a deep neural network (DNN) to learn the Q-function of reinforcement learning from the sampled traffic state/control inputs and the corresponding traffic system performance output. Based on the obtained DNN, we can find the appropriate signal timing policies by implicitly modeling the control actions and the change of system states. We explain the possible benefits and implementation tricks of this new approach. The relationships between this new approach and some existing approaches are also carefully discussed. 相似文献

16.

一种面向自动驾驶推理任务的工作流调度策略

林凯卢宇陈星林兵《小型微型计算机系统》2021,(3):632-639

目前自动驾驶推理任务调度中要解决的关键问题是如何在不同的时间窗内,让实时推理任务满足可容忍时间约束的前提下,在相应的处理设备上被调度执行完成.在不同时间窗内,依据边缘节点的数量变化以及推理任务的不同,设计了一种边缘环境下基于强化学习算法的工作流调度策略.首先,利用推理任务工作流调度算法计算任务的完成时间;其次,采用基于... 相似文献

17.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

18.

Reinforcement Learning Behavioral Control for Nonlinear Autonomous System

下载免费PDF全文

Zhenyi Zhang Zhibin Mo Yutao Chen Jie Huang 《IEEE/CAA Journal of Automatica Sinica》2022,9(9):1561-1573

Behavior-based autonomous systems rely on human intelligence to resolve multi-mission conflicts by designing mission priority rules and nonlinear controllers. In this work, a novel two-layer reinforcement learning behavioral control (RLBC) method is proposed to reduce such dependence by trial-and-error learning. Specifically, in the upper layer, a reinforcement learning mission supervisor (RLMS) is designed to learn the optimal mission priority. Compared with existing mission supervisors, the RLMS improves the dynamic performance of mission priority adjustment by maximizing cumulative rewards and reducing hardware storage demand when using neural networks. In the lower layer, a reinforcement learning controller (RLC) is designed to learn the optimal control policy. Compared with existing behavioral controllers, the RLC reduces the control cost of mission priority adjustment by balancing control performance and consumption. All error signals are proved to be semi-globally uniformly ultimately bounded (SGUUB). Simulation results show that the number of mission priority adjustment and the control cost are significantly reduced compared to some existing mission supervisors and behavioral controllers, respectively. 相似文献