期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐佳胡春鹤《信息与控制》2023,(4):432-443

为满足多无人机(multi-UAVs)的协同任务中高效自主避碰的需求，在基于数据驱动的强化学习方法的基础上，提出了一种分布式多经验池深度确定性策略梯度避碰方法(DMEP-DDPG),使单个无人机在多机环境下仅依靠自身传感数据即可自主避碰作业。首先，针对强化学习任务在长周期下的稀疏回报问题，设计了基于引导型奖励函数系统回报机制；其次，为克服单一经验池样本效率低带来的策略收敛困难的问题，构建了新型的分布式多经验池更新的确定性策略梯度框架；最后，在多种多无人机协同任务环境中测试了DMEP-DDPG方法的避碰性能，并与其它基于学习的避碰策略进行了性能指标对比，结果验证了DMEP-DDPG方法的可行性和有效性。相似文献

2.

多无人机空中加油的最优会合航路规划

胡春鹤陈宗基《控制理论与应用》2015,32(10):1400-1406

为了空中加油能面向多架无人机,本文提出了空中加油的三维最优会合航路规划算法.多架无人机分布在不同区域,需要加油机沿预定的规划航路飞行会合,以完成空中加油任务.由于加油机可同时服务的受油机数量有限,需要寻找最优分配策略将无人机预分配至不同加油区域与之会合.本文首先根据加、受油机在各加油区域的最短会合时间,将最优分配问题建模为整数线性规划问题,求解得到加油机与各无人机的最优会合点.随后,本文提出了三维空间Dubins路径延长算法,保证各无人机按照分配结果与加油机同时到达会合点.最后,分别针对二维和三维多架无人机空中加油任务进行仿真.仿真结果表明本文提出的最优会合航路规划算法得到的Dubins航路,可以保证空中加油会合任务在最短时间内完成. 相似文献

3.

移动机器人运动规划中的深度强化学习方法

孙辉辉胡春鹤张军国《控制与决策》2021,36(6):1281-1292

随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考. 相似文献

4.

多智能体专家型策略梯度的目标跟踪与清障

孙辉辉胡春鹤张军国《控制理论与应用》2022,39(10):1854-1864

为适应复杂环境下目标跟踪机器人高效运动规划需求,本文提出一种基于多智能体强化学习的专家型策略梯度(ML-DDPG) 方法。为此首先构建了基于最小化任务单元的分布式多Actor-Critic网络架构;随后针对机器人主动障碍清除和目标跟踪任务建立了强化学习运动学模型和视觉样本预处理机制,由此提出一种专家型策略引导的最优目标价值估计方法;进一步通过并行化训练与集中式经验共享,提升了算法的训练效率;最后在不同任务环境下测试了ML-DDPG 算法的目标跟踪与清障性能表现,和其它算法对比验证了其在陌生环境中良好的迁移与泛化能力。相似文献

5.

多运动体分布式最优编队构型形成算法 总被引：1，自引：0，他引：1

胡春鹤王健豪《控制与决策》2018,33(11):2004-2008

针对分布式通信条件下的多运动体编队构型形成问题进行研究.考虑到个体的有限通信与感知能力,传统集中式求解算法无法适应实际需求,提出一种基于分布式交替映射凸优化的分布式时间最优编队构型形成算法,使得个体间仅依赖局部通信与局部计算实现编队构型的快速形成;将该问题建模为含有等式约束的分布式Minimax凸优化问题,提出基于虚拟等式约束函数的分布式交替映射凸优化算法实现求解;根据求解结果,各运动体采用RVO避障策略实现最优构型形成.针对含有100个运动体的最优编队构型形成问题进行仿真,验证了所提出算法的有效性. 相似文献

6.

基于主动风险防御机制的多机器人强化学习协同对抗策略

下载免费PDF全文

孙辉辉胡春鹤张军国《控制与决策》2023,38(5):1420-1429

深度强化学习因其在多机器人系统中的高效表现,已经成为多机器人领域的研究热点.然而,当遭遇连续时变、风险未知的非结构场景时,传统方法暴露出风险防御能力差、系统安全性能脆弱的问题,未知风险将以对抗攻击的形式给多机器人的状态空间带来非线性入侵.针对这一问题,提出一种基于主动风险防御机制的多机器人强化学习方法(APMARL).首先,基于局部可观察马尔可夫博弈模型,建立多机记忆池共享的风险判别机制,通过构建风险状态指数提前预测当前行为的安全性,并根据风险预测结果自适应执行与之匹配的风险处理模式;特别地,针对有风险侵入的非安全状态,提出基于增强型注意力机制的Actor-Critic主动防御网络架构,实现对重点信息的分级增强和危险信息的有效防御.最后,通过广泛的多机协作对抗任务实验表明,具有主动风险防御机制的强化学习策略可以有效降低敌对信息的入侵风险,提高多机器人协同对抗任务的执行效率,增强策略的稳定性和安全性. 相似文献