复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策

引用本文：	殷辰堃,纪宏萱,张严心.复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策[J].北京工业大学学报,2023(4):403-414.

作者姓名：	殷辰堃纪宏萱张严心

作者单位：	北京交通大学电子信息工程学院

基金项目：	国家自然科学基金面上资助项目(62273028,62073025,62073026)；

摘要：	机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划，设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成，高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下，首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构，并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次，针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题，应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互，通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.
关键词：	分层强化学习 Soft Actor-Critic算法搜索救援任务双足移动机器人自主决策交互场景

设为首页 | 免责声明 | 关于勤云 | 加入收藏