首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

2.
车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。  相似文献   

3.
视觉感知模块能够利用摄像机等视觉传感器获取丰富的图像和视频信息,进而检测自动驾驶汽车视野中的车辆、行人与交通标识等信息,是自动驾驶最有效、成本最低的感知方式之一。运动规划为自主车辆提供从车辆初始状态到目标状态的一系列运动参数和驾驶动作,而端到端的模型能够直接从感知的数据获取车辆的运动参数,因而受到广泛的关注。为了全面反映视觉感知的端到端自动驾驶运动规划方法的研究进展,本文对国内外公开发表的具有代表性和前沿的论文进行了概述。首先分析端到端方法的应用,以及视觉感知和运动规划在端到端自动驾驶中的作用,然后以自主车辆的学习方式作为分类依据,将视觉感知的端到端自动驾驶运动规划的实现方法分为模仿学习和强化学习两大类,并对各类方法的不同算法进行了归纳和分析;考虑到现阶段端到端模型的研究面临着虚拟到现实的任务,故对基于迁移学习的方法进行了梳理。最后列举与自动驾驶相关的数据集和仿真平台,总结存在的问题和挑战,对未来的发展趋势进行思考和展望。视觉感知的端到端自动驾驶运动规划模型的普适性强且结构简单,这类方法具有广阔的应用前景和研究价值,但是存在不可解释和难以保证绝对安全的问题,未来需要更多的研究改善端到端模型存在的局限性。  相似文献   

4.
在自动驾驶决策方法中,传统模块化方法受限制于数据集的广泛性,基于强化学习的方法难以在高输入维度且动作空间连续的情况下有效学习。为了解决上述问题,提出了一种基于异构融合特征的深度强化学习自动驾驶决策方法,首先使用适量驾驶数据预训练图像降维网络,然后将降维后得到的图像特征和车辆状态特征进行异构融合作为强化学习的输入,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)强化学习框架,通过为自动驾驶量身定制的综合了速度、方向盘角度、车辆位置、碰撞等信息的奖励函数有效引导学习,结合经验池回放技术和目标网络技术提高训练收敛速度。所提方法有效缩短了训练时间,并可在复杂城市环境下保持较高的稳定性与鲁棒性。  相似文献   

5.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。  相似文献   

6.
利用深度强化学习技术实现无信号灯交叉路口车辆控制是智能交通领域的研究热点。现有研究存在无法适应自动驾驶车辆数量动态变化、训练收敛慢、训练结果只能达到局部最优等问题。文中研究在无信号灯交叉路口,自动驾驶车辆如何利用分布式深度强化方法来提升路口的通行效率。首先,提出了一种高效的奖励函数,将分布式强化学习算法应用到无信号灯交叉路口场景中,使得车辆即使无法获取整个交叉路口的状态信息,只依赖局部信息也能有效提升交叉路口的通行效率。然后,针对开放交叉路口场景中强化学习方法训练效率低的问题,使用了迁移学习的方法,将封闭的8字型场景中训练好的策略作为暖启动,在无信号灯交叉路口场景继续训练,提升了训练效率。最后,提出了一种可以适应所有自动驾驶车辆比例的策略,此策略在任意比例自动驾驶车辆的场景中均可提升交叉路口的通行效率。在仿真平台Flow上对TD3强化学习算法进行了验证,实验结果表明,改进后的算法训练收敛快,能适应自动驾驶车辆比例的动态变化,能有效提升路口的通行效率。  相似文献   

7.
在自动驾驶技术发展中,安全性一直作为首要因素被业界重视.行为决策与运动规划系统作为该技术的关键环节,对智慧属性具有更高要求,需要不断地随着环境变化做出当前的最优策略与行为,确保车辆行驶过程中的安全.文中分别对行为决策和运动规划系统进行深层次阐述,首先,介绍行为决策中基于规则的决策算法、基于监督学习的决策算法、基于强化学习的决策算法的算法理论及其在实车中的应用.然后,介绍运动规划中基于采样的规划算法、基于图搜索的规划算法、基于数值优化的规划算法和基于交互性的规划算法,并对算法的设计展开讨论,从安全角度分析行为决策和运动规划,对比各类方法的优缺点.最后,展望自动驾驶领域未来的安全研究方向及挑战.  相似文献   

8.
罗飞  白梦伟 《计算机应用》2022,42(8):2361-2368
在复杂交通情景中求解出租车路径规划决策问题和交通信号灯控制问题时,传统强化学习算法在收敛速度和求解精度上存在局限性;因此提出一种改进的强化学习算法求解该类问题。首先,通过优化的贝尔曼公式和快速Q学习(SQL)机制,以及引入经验池技术和直接策略,提出一种改进的强化学习算法GSQL-DSEP;然后,利用GSQL-DSEP算法分别优化出租车路径规划决策问题中的路径长度与交通信号灯控制问题中的车辆总等待时间。相较于Q学习、快速Q学习(SQL)、、广义快速Q学习(GSQL)、Dyna-Q算法,GSQL-DSEP算法在性能测试中降低了至少18.7%的误差,在出租车路径规划决策问题中使决策路径长度至少缩短了17.4%,在交通信号灯控制问题中使车辆总等待时间最多减少了51.5%。实验结果表明,相较于对比算法,GSQL-DSEP算法对解决交通情景问题更具优势。  相似文献   

9.
利用深度强化学习(deep reinforcement learning,DRL)技术实现自动驾驶决策已成为国内外研究热点,现有研究中的车辆交通流缺乏随机性与真实性,同时自动驾驶车辆在环境中的有效探索具有局限性。因此利用TD3算法进行自动驾驶车辆在无信号交叉口下的右转驾驶决策研究,首先在Carla仿真平台中开发无信号交叉口的训练与测试场景,并添加交通流管理功能,提高系统训练和测试随机性。其次,为了提高自动驾驶车辆的探索性,对TD3算法中的Actor网络进行改进,为目标动作添加OU噪声。最后使用通行成功率和平均通行时间评估指标评价自动驾驶行为决策。结果表明,在不同交通流场景下,改进后的TD3算法通行成功率与基于DDPG算法控制的车辆相比平均提升6.2%,与基于规则的AEB模型相比平均提升23%。改进后的TD3算法不仅能够探索更多可能,而且其通行决策表现更加突出。  相似文献   

10.
当前面向多辆自动驾驶汽车的协同运动规划方法能有效保证运行车辆与障碍物及其他车辆之间避免发生碰撞并保持安全距离,但车辆间的在线协同与规划能力仍有待提升。为实现多辆自动驾驶汽车在运动过程中的协同控制,提出一种基于改进蚁群优化算法的多车在线协同规划方法。以空间协同与轨迹代价为优化目标,构造多目标优化函数,确保了多车行驶过程中的协同安全性与轨迹平滑性。将多目标优化函数引入蚁群优化算法的信息素更新过程中,根据自动驾驶车辆数量产生多个种群,使得种群之间相互独立的同时为每辆自动驾驶汽车规划可行路线。最终对蚁群优化算法中的挥发因子进行自适应调整,提升了算法全局搜索能力及收敛速度。实验结果表明,该方法能使多辆自动驾驶汽车在运动过程中保持协同控制并规划出无碰撞路线,相比于基于人工势场和模型预测的协同驾驶方法在复杂道路场景下车辆间的协同效果更好且适应性更强。  相似文献   

11.
针对无人驾驶车辆的局部路径规划问题,提出一种基于多次曲率拟合模型的路径规划算法。鉴于无人车辆需要生成无碰路径的特点,建立了由三次曲率多项式产生的候选路径集,采用四重参数循环法解决了三次曲率多项式参数计算的问题,进而能够根据评价函数从候选路径集中选择出当前环境下的最优路径。所提出的无人车局部路径规划算法经现场多个路口通过性实验证明了有效性。  相似文献   

12.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

13.
探讨了深海多金属结核集矿机在作业过程中的实时局部路径规划问题,旨在解决在深海复杂特殊环境下多金属结核集矿机的自适应实时路径规划问题。采用了能实现模糊控制规则的基于强化学习方法的自学习和自调整算法来实现深海集矿机的实时运动规划,并提出了能实现模糊控制规则的基于强化学习的自学习和自调整的规划算法。设计了深海集矿机实时运动规划器结构、规划器操作过程以及相应的算法。集矿机试验样机池试试验表明该方法的有效性.可广泛应用于类似路径规划问题。  相似文献   

14.
无人机反应式扰动流体路径规划   总被引:1,自引:1,他引:0  
针对复杂三维障碍环境,提出一种基于深度强化学习的无人机(Unmanned aerial vehicles, UAV)反应式扰动流体路径规划架构.该架构以一种受约束扰动流体动态系统算法作为路径规划的基本方法,根据无人机与各障碍的相对状态以及障碍物类型,通过经深度确定性策略梯度算法训练得到的动作网络在线生成对应障碍的反应系数和方向系数,继而可计算相应的总和扰动矩阵并以此修正无人机的飞行路径,实现反应式避障.此外,还研究了与所提路径规划方法相适配的深度强化学习训练环境规范性建模方法.仿真结果表明,在路径质量大致相同的情况下,该方法在实时性方面明显优于基于预测控制的在线路径规划方法.  相似文献   

15.
合理有效地对移动海洋环境观测平台进行规划,有利于海洋环境观测网络的设计和海洋环境信息的采集.针对庞大的海洋环境,在有限的观测资源下,使用深度强化学习算法对海洋环境观测网络进行规划.针对强化学习算法求解路径规划问题中的离散和连续动作设计问题,分别使用DQN和DDPG两种算法对该问题进行单平台和多平台实验,实验结果表明,使...  相似文献   

16.
路径规划是人工智能领域的一个经典问题,在国防军事、道路交通、机器人仿真等诸多领域有着广泛应用,然而现有的路径规划算法大多存在着环境单一、离散的动作空间、需要人工构筑模型的问题。强化学习是一种无须人工提供训练数据自行与环境交互的机器学习方法,深度强化学习的发展更使得其解决现实问题的能力得到进一步提升,本文将深度强化学习的DDPG(Deep Deterministic Policy Gradient)算法应用到路径规划领域,完成了连续空间、复杂环境的路径规划。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号