首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对智能车路径规划过程中常存在动态环境感知预估不足的问题,使用基于蒙特卡罗深度策略梯度学习(Monte Carlo prediction deep deterministic policy gradient, MCPDDPG)的智能车辆路径规划方法,设计一种基于环境感知预测、行为决策和控制序列生成的框架,实现实时的决策...  相似文献   

2.
强化学习是人工智能的重要分支,具备与环境直接交互学习能力并具有优化决策的特点。强化学习问世以来便受到科研学者广泛关注,并探索其与深度学习之间融合的可能性。强化学习应用广泛,渗透教育、医药卫生、制造业、金融等多个领域。通过总结值函数与策略更新两种深度强化学习算法的演变历程,分别探索强化学习在智能路径规划领域中的优化算法,探讨算法落地过程中的难点及发展方向。  相似文献   

3.
4.
随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考.  相似文献   

5.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

6.
车辆路径问题(VRP)是组合优化问题中经典的NP难问题,广泛应用于交通、物流等领域,随着问题规模和动态因素的增多,传统算法很难快速、智能地求解复杂的VRP问题。近年来随着人工智能技术的发展,尤其是深度强化学习(DRL)在AlphaGo中的成功应用,为路径问题求解提供了全新思路。鉴于此,针对近年来利用DRL求解VRP及其变体问题的模型进行文献综述。回顾了DRL求解VRP的相关思路,并梳理基于DRL求解VRP问题的关键步骤,对基于指针网络、图神经网络、Transformer和混合模型的四类求解方法分类总结,同时对目前基于DRL求解VRP及其变体问题的模型性能进行对比分析,总结了基于DRL求解VRP问题时遇到的挑战以及未来的研究方向。  相似文献   

7.
随着智能无人小车的广泛应用,智能化导航、路径规划和避障技术成为了重要的研究内容。文中提出了基于无模型的DDPG和SAC深度强化学习算法,利用环境信息循迹至目标点,躲避静态与动态的障碍物并且使其普适于不同环境。通过全局规划和局部避障相结合的方式,该方法以更好的全局性与鲁棒性解决路径规划问题,以更好的动态性与泛化性解决避障问题,并缩短了迭代时间;在网络训练阶段结合PID和A*等传统算法,提高了所提方法的收敛速度和稳定性。最后,在机器人操作系统ROS和仿真程序gazebo中设计了导航和避障等多种实验场景,仿真实验结果验证了所提出的兼顾问题全局性和动态性的方法具有可靠性,生成的路径和时间效率有所优化。  相似文献   

8.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.  相似文献   

9.
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。  相似文献   

10.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径.在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法.深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足...  相似文献   

11.
针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务 总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业.  相似文献   

12.
深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性.  相似文献   

13.
14.
为了解决复杂装配模型的序列规划问题,并使算法对任意初始状态具有较高的适应性,本文提出了一种包含正向装配以及逆向拆解的一体化双向装配序列规划方法BASPW–DQN.针对复杂装配模型,首先进行了一体化装配序列规划的问题描述与形式化表示;在此基础上,引入了课程学习及迁移学习方法,对包含前向装配和逆向错误零件拆卸两部分过程的双...  相似文献   

15.
目前提出的多机械手轨迹规划系统路径规划精准度低,避障能力差。基于深度学习对多机械手的规划系统进行设计,通过研究传统系统中存在精确度、智能性不足的缺点,在设计的系统分别引入了相应的解决条件,在硬件结构的设计中本文应用ISL-320型号的伺服电机提升多机械手的动力功能,应用SKT64系列的芯片提升多机械手的路径精准度;在应用程序设计上应用拟合算法与叠加算法对规划路径中的节点精准运算,在提升系统整体精准度的同时提升了系统的智能程度。实验结果表明,基于深度学习的多机械手轨迹规划系统路径与标准路径十分接近,说明该方法的规划精准度较高,避障能力得到有效增强。  相似文献   

16.
为提高多车场车辆路径问题(multi-depot vehicle routing problem, MDVRP)的求解效率,提出了端到端的深度强化学习框架。首先,将MDVRP建模为马尔可夫决策过程(Markov decision process, MDP),包括对其状态、动作、收益的定义;同时,提出了改进图注意力网络(graph attention network, GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器;采用改进REINFORCE算法来训练该模型,该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题。最后,通过随机生成的算例和公开的标准算例验证了所提出框架的可行性和有效性,即使在求解客户节点数为100的MDVRP上,经训练的模型平均仅需2 ms即可得到与现有方法相比更具优势的解。  相似文献   

17.
针对车辆队列中多目标控制优化问题,研究基于强化学习的车辆队列控制方法.控制器输入为队列各车辆状态信息以及车辆间状态误差,输出为基于车辆纵向动力学的期望加速度,实现在V2X通信下的队列单车稳定行驶和队列稳定行驶.根据队列行驶场景以及采用的间距策略、通信拓扑结构等特性,建立队列马尔科夫决策过程(Markov decision process,MDP)模型.同时根据队列多输入-多输出高维样本特性,引入优先经验回放策略,提高算法收敛效率.为贴近实际车辆队列行驶工况,仿真基于PreScan构建多自由度燃油车动力学模型,联合Matlab/ Simulink搭建仿真环境,同时引入噪声对队列控制器中动作网络和评价网络进行训练.仿真结果表明基于强化学习的车辆队列控制燃油消耗更低,且控制器实时性更高,对车辆的控制更为平滑.  相似文献   

18.
传统的机器人局部路径规划方法多为已有先验地图的情况设计,导致其在与视觉(simultaneous localization and mapping, SLAM)结合的导航中效果不佳。为此传统的机器人局部路径规划方法多为已有先验地图的情况设计,导致其在与视觉SLAM结合的导航中效果不佳。为此,本文提出一种基于深度强化学习的视觉局部路径规划策略。首先,基于视觉同时定位与建图(SLAM)技术建立周围环境的栅格地图,并使用A*算法规划全局路径;其次,综合考虑避障、机器人行走效率、位姿跟踪等问题,构建基于深度强化学习的局部路径规划策略,设计以前进、左转、右转为基本元素的离散动作空间,以及基于彩色图、深度图、特征点图等视觉观测的状态空间,利用近端策略优化(proximal policy optimization, PPO)算法学习和探索最佳状态动作映射网络。Habitat仿真平台运行结果表明,所提出的局部路径规划策略能够在实时创建的地图上规划出一条最优或次优路径。相比于传统的局部路径规划算法,平均成功率提高了53.9%,位姿跟踪丢失率减小了66.5%,碰撞率减小了30.1%。  相似文献   

19.
针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景,需要利用目标位置信息还原各航迹并区分各目标的问题进行研究,提出采用深度强化学习复原目标航迹的方法。依据目标航迹的物理特点,提取数学模型,结合目标航迹的方向、曲率等提出轨迹曲率圆(TOC)奖励函数,使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题,并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明,TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹,在航向和航速方面切合实际目标航迹。  相似文献   

20.
由于高超声速飞行器的复杂特性,对其进行航迹规划是一项非常困难的任务.本文针对高超声速飞行器巡航段,提出了一种将无模型的强化学习和交叉熵方法相结合的在线航迹规划算法.本文将航迹规划问题建模为环境信息缺失程度不同的马尔可夫决策过程,利用(PPO)算法在建立的飞行环境模拟器中离线训练智能体,并通过提高智能体的动作在时间上的相关性来保证航迹的曲率平滑.交叉熵方法则以已训练的智能体由观测到的状态给出的动作作为一种先验知识,进一步在线优化规划策略.实验结果表明了本文的方法可以生成曲率平滑的航迹,在复杂的飞行环境中具有较高的成功率,并且可以泛化到不同的飞行环境中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号