共查询到18条相似文献,搜索用时 78 毫秒
1.
提出了一种基于递深度递归强化学习的自动驾驶策略模型学习方法,并在TORCS虚拟驾驶引擎进行仿真验真。针对Actor-Critic框架过估计和更新缓慢的问题,结合clipped double DQN,通过取最小估计值的方法缓解过估计的情况。为了获取多时刻状态输入以帮助智能体更好的决策,结合递归神经网络,设计出包含LSTM结构的Actor策略网络的Critic评价网络。在TORCS平台仿真实验表明,所提算法相对与传统DDPG算法能有效提高训练效率。 相似文献
2.
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。 相似文献
3.
随着人工智能的发展,自动驾驶领域的研究也日益壮大.深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一.其中,安全探索问题是该领域的一个研究热点.然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习... 相似文献
4.
无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。 相似文献
5.
人工智能和自动驾驶的发展如火如荼,人工智能技术在自动驾驶技术中的应用也越来越多、越来越深入,因此本文提出一种基于深度强化学习的单目视觉自动驾驶决策系统,可以让自动驾驶车辆通过相机作为传感器输入,实现端到端的自动驾驶决策,并且通过设置奖励函数和训练使得车辆的学习效率越来越高,可以在车道内保持直线行驶。 相似文献
6.
针对复杂环境下无人车路径规划问题,在软演员评论家(SAC)算法的框架下进行改进。通过在奖励函数的设计上融合基于势能的回报塑形(PBRS)思想,并加入双连帧等训练技巧,设计了PBRS-SAC算法。之后在Ubuntu操作系统上搭建基于Gazebo的仿真环境,分别模拟静态与动态实验环境进行训练。最后,通过消融实验、敏感性测试实验与鲁棒性分析实验验证该算法的有效性。 相似文献
7.
深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的研究进行概述,对深度强化学习基本原理进行介绍,包括深度学习和强化学习。介绍深度强化学习算法应用的理论方法,在此基础对深度强化学习的算法进行了分类介绍,分别介绍了基于值函数和基于策略梯度的强化学习算法,列举了这两类算法的主要发展成果,以及其他相关研究成果。对深度强化学习在智能制造的典型应用进行分类分析。对深度强化学习存在的问题和未来发展方向进行了讨论。 相似文献
8.
9.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。 相似文献
10.
为了提高无人车驾驶的稳定性,提出基于DP优化的无人车稳定性协调控制方法。设计无人车动力学模型,确保无人车自身稳定性的同时,实现车辆行驶过程路径的快速与高精度跟踪。利用五次多项式方程描述无人车的换道轨迹曲线,建立换道约束条件,在满足约束条件的前提下,获得最优换道路线。采用DP优化算法解决车辆行驶过程中频繁换挡的问题,实现无人车稳定性协调控制,提高无人车行驶过程中的稳定性和安全性。实验结果表明,所提方法可以提高无人车路径跟踪精度,保证车辆驾驶的稳定性和安全性。 相似文献
11.
本文首先介绍了水下无人航行器的研究背景、特点、分类与国内外研究现状。随后,阐述了国内在该领取得的标志性成果,包括几款AUV和ROV产品,其中重点介绍了一款大深度AUV和深海作业型ROV的技术特点与技术难点。接着,对该领域未来的发展趋势进行了展望。最后,对全文进行了小结。 相似文献
12.
平行机器人与平行无人系统:框架、结构、过程、平台及其应用 总被引:9,自引:0,他引:9
本文将基于ACP(Artificial societies,computational experiments,parallel execution)的平行系统思想与机器人领域相结合,形成一种软硬件相结合的框架,为无人机、无人车、无人船在复杂环境中实验、学习与实际工作提供便捷、安全的平台,即平行无人系统.本文从平行机器人的基本概念出发,提出平行无人系统的基本框架,并介绍了各模块的基本功能与实现方法,探讨了其中的关键技术.然后本文围绕无人机、无人车、无人船三个方面展望了无人平行系统在实际中的应用和所面临的挑战,提出了平行无人系统的未来发展方向. 相似文献
13.
现有无人车辆的驾驶策略过于依赖感知-控制映射过程的“正确性”,而忽视了人类驾驶汽车
时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端
无人驾驶控制策略。通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续
有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为
输出率。针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函
数,提高了算法训练的稳定性。不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏
灾难性事件时,对目标函数优化期望的近似程度提高了 85.57%,训练效率比传统深度确定性策略梯度
算法提高了 21%,任务成功率提高了 19%,任务执行效率提高了 15.45%,验证了该方法在控制效率和
平顺性方面具备明显优势,显著减少了碰撞事故。 相似文献
14.
无人机控制器的设计开发是一项复杂的系统工程, 传统的基于代码编程的开发方式存在开发难度大、周期长及错误率高等缺点. 同时, 强化学习智能飞控算法虽在仿真中取得很好的性能, 但在实际中仍缺乏一套完备的开发系统. 本文提出一套基于模型的智能飞控开发系统, 使用模块化编程及自动代码生成技术, 将强化学习算法应用于飞控的嵌入式开发与部署. 该系统可以实现强化学习算法的训练仿真、测试及硬件部署, 旨在提升以强化学习为代表的智能控制算法的部署速度, 同时降低智能飞行控制系统的开发难度. 相似文献
15.
16.
李洋 《计算机与数字工程》2010,38(5):78-80,174
教学的个性化和智能化是智能教学系统研究的重点和难点。文章采用智能代理技术模拟系统中学生的智能和行为方式,将强化学习理论应用于多代理体,设计了结合资格迹理论的强化学习算法,并用以生成和调整适合于每个学生个体的教学内容和教学策略。多代理体技术实现了教学的个性化,强化学习算法使得教学策略具有智能化。实验结果表明,新的算法较原有算法更为有效。 相似文献
17.
18.
车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。 相似文献