共查询到20条相似文献,搜索用时 46 毫秒
1.
旋翼无人机在移动平台上快速自主降落能够提升空地机器人的任务适应性和作业灵活性, 对提高任务响应速度和增强救援能力具有重要意义。为了使旋翼无人机在最短时间内安全降落到移动平台, 本文提出了一种最优升力分解轨迹生成方法, 旨在在升力有限的情况下, 最大化旋翼无人机的飞行性能。该方法首先对旋翼无人机的有限升力进行分解, 获得最优的3轴升力分配, 然后将非线性加速度约束转化为动态线性约束, 最后根据最优控制理论求解出最优飞行时间轨迹。仿真结果表明了本文提出的算法能够保证轨迹生成的准确性和稳定性, 并且该算法的计算效率高, 能够满足系统实际应用中的实时性要求。 相似文献
2.
为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。 相似文献
3.
针对旋翼无人机全自主作业的需求,构建了崎岖地表上的旋翼无人机自主安全降落系统.该系统通过机载实时运算自动分析落区地形,寻找可行落点并实施自动降落.系统以低成本的立体RGB-D相机作为深度传感设备,利用截断符号距离函数(TSDF)对着陆区地形进行实时3维建模,生成低噪的落区地形深度图像,并设计了一种适应起落机构形状的实时精细落点搜索方法,最后使用级联PID(比例-积分-微分)控制器控制无人机实施安全降落.系统基于大疆M100无人机平台实现,定制了仿真器进行算法调试,并最终在实际的崎岖地表上实现了自主安全降落.本文工作可为旋翼无人机紧急降落、物流运输或者灾后搜救提供有效安全的解决方案. 相似文献
4.
针对四旋翼无人机在降落控制过程中地面效应对控制性能有较大影响的问题,在地面效应复杂,难以建立机理模型的约束下,提出一种基于深度学习的新型非线性鲁棒控制策略.利用深度神经网络的学习能力,建立无人机降落过程中未知地面效应的补偿模型;结合super-twisting控制设计,实现对降落过程中未知地面效应的快速抑制和无人机降落... 相似文献
5.
为满足多无人机(multi-UAVs)的协同任务中高效自主避碰的需求,在基于数据驱动的强化学习方法的基础上,提出了一种分布式多经验池深度确定性策略梯度避碰方法(DMEP-DDPG),使单个无人机在多机环境下仅依靠自身传感数据即可自主避碰作业。首先,针对强化学习任务在长周期下的稀疏回报问题,设计了基于引导型奖励函数系统回报机制;其次,为克服单一经验池样本效率低带来的策略收敛困难的问题,构建了新型的分布式多经验池更新的确定性策略梯度框架;最后,在多种多无人机协同任务环境中测试了DMEP-DDPG方法的避碰性能,并与其它基于学习的避碰策略进行了性能指标对比,结果验证了DMEP-DDPG方法的可行性和有效性。 相似文献
7.
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法.围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型... 相似文献
8.
9.
提出一种基于自主学习框架的无人机3维路径规划方法.该自主学习框架由知识学习、知识检索和在线更新三部分组成.在该框架中,无人机在线路径规划时首先从过去的规划经验中提取控制量直接用于指导当前机器人的行动,另一方面,如果检索结果对于当前无人机的状态是无效的,可以在线启动常规3维路径规划算法,实时计算机器人的控制量,在控制机器人运动的同时将当前状态下的新决策量添加到知识库中从而对其进行更新.此外,分别采用增量分层判别回归算法(IHDR)和k-D树方法建立了路径规划知识库.其中,IHDR方法通过增量方式,可将以往的路径样本建立为一棵分层树.大量的仿真结果对比表明,在本文提出的框架下,基于IHDR的方法比传统的k-D树方法具有更好的实时性. 相似文献
10.
针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题,提出一种基于模型的内在奖励强化学习算法。采用并行架构将数据收集操作和策略更新操作完全解耦,提升算法学习效率,并运用内在奖励的方法提高智能体对环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而在有限步内更好地预测状态、奖励等信息。在此基础上,通过结合有限步的规划计算以及神经网络的预测,提升价值函数的预测精准度,以利用较少的经验数据完成智能体的训练。实验结果表明,相比同样架构的无模型强化学习算法,该算法达到相同训练水平所需的经验数据量减少近600幕数据,样本效率和算法鲁棒性都有大幅提升,相比传统的非强化学习启发类算法,分数提升接近8 000分,与MVE等主流的基于模型的强化学习算法相比,平均分数可以提升接近2 000分,且在样本效率和稳定性上都有明显提高。 相似文献
11.
在无人仓库系统中, 解决自动导引车(AGV)间的碰撞、死锁以及路径规划问题至关重要. 鉴于此, 提出一种用Petri网对仓库环境中AGV系统进行建模的方法, 以有效解决AGV运输货物时产生冲突的问题. 在此基础上, 提出一种多智能体深度强化学习AGV路径规划框架, 视AGV路径规划问题为部分可观测马尔可夫决策过程, 将深度确定性策略梯度算法扩展至多智能体系统, 通过设计AGV的观测空间、状态空间、动作空间以及奖励函数来实现Petri网中AGV无冲突路径规划. 在设置奖励函数时加入Petri网触发条件后的反馈, 以极大程度地减少AGV运输货物时拥塞的产生, 增加仓库在规定时间内的送货总量. 此外, 所提出框架将路径分支点设置为智能体, 以有效地应对多个任务起点随机产生以及环境中AGV数量时刻变化的情况, 提升神经网络泛化能力. 仿真实验在AnyLogic软件平台中进行, 通过对比不同AGV规模下的货物运输情况以及奖励函数中有无Petri网条件正负反馈的对照实验, 验证所提出路径规划方法的可行性和有效性. 相似文献
12.
13.
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。 相似文献
14.
15.
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法.通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dot-product方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中.在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力.将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励.通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点. 相似文献
16.
为实现复杂任务环境中多无人机的自主飞行, 本文采用改进的强化学习算法,设计了一种具有避碰避障功能的多无人机智能航迹规划策略。通过改进搜索策略、引入具有近似功能的神经网络函数、构造合理的立即回报函数等方法,提高算法运算的灵活性、降低无人机运算负担, 使得多无人机能够考虑复杂任务环境中风速等随机因素以及静态和动态威胁的影响, 自主规划出从初始位置到指定目标点的安全可行航迹。为了探索所提算法在实际飞行过程的可行性, 本文以四旋翼无人机为实验对象, 在基于ROS的仿真环境中验证了算法的可行性与有效性。 相似文献
17.
18.
Reinforcement learning (RL) is a popular method for solving the path planning problem of autonomous mobile robots in unknown environments. However, the primary difficulty faced by learning robots using the RL method is that they learn too slowly in obstacle-dense environments. To more efficiently solve the path planning problem of autonomous mobile robots in such environments, this paper presents a novel approach in which the robot’s learning process is divided into two phases. The first one is to accelerate the learning process for obtaining an optimal policy by developing the well-known Dyna-Q algorithm that trains the robot in learning actions for avoiding obstacles when following the vector direction. In this phase, the robot’s position is represented as a uniform grid. At each time step, the robot performs an action to move to one of its eight adjacent cells, so the path obtained from the optimal policy may be longer than the true shortest path. The second one is to train the robot in learning a collision-free smooth path for decreasing the number of the heading changes of the robot. The simulation results show that the proposed approach is efficient for the path planning problem of autonomous mobile robots in unknown environments with dense obstacles. 相似文献
19.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现. 动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究. 针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估. 提出基于双评论家的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics, MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略. 此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量. 在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 相似文献