期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

金尚泰丁莹殷辰堃侯忠生《控制与决策》2018,33(4):633-638

已有的边界控制方法主要是基于模型的反馈控制算法,其实际应用效果受制于模型参数的标定和环境的影响.迭代学习控制以完全跟踪为目标,仅利用较少的模型信息就可以沿迭代轴实现对系统期望输出的完全跟踪.基于城市交通流的重复特性,提出一种城市交通区域的迭代学习边界控制方法,给出跟踪误差收敛性分析.以日本横滨区域为对象分别进行3种场景的仿真:早高峰、晚高峰和中心区域拥堵.仿真结果表明,迭代学习控制方法对于各种场景下的区域路网交通均能达到较为理想的控制效果. 相似文献

2.

基于改进小波阈值去噪的MFAC扰动抑制方法

郑璟瑜殷辰堃《自动化应用》2016,(4):34-37

提出一种带有改进小波阈值去噪模块的MFAC控制方法,实现对系统输出数据的自适应实时去噪并应用于控制系统设计中,在有效地抑制测量扰动的基础上达到更好的控制效果。相似文献

3.

复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策

殷辰堃纪宏萱张严心《北京工业大学学报》2023,(4):403-414

机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性. 相似文献

4.

部分可观测下基于RGMAAC算法的多智能体协同

王子豪张严心黄志清殷辰堃《控制与决策》2023,38(5):1267-1277

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性... 相似文献

5.

一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法

张严心孔涵殷辰堃王子豪黄志清《北京工业大学学报》2023,(4):459-466

针对实际多智能体系统对交互经验的庞大需求，在单智能体领域分布式架构的基础上，提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据，为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性，提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式，并对智能体的网络参数进行更新.为验证算法的效率，设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景，将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, ... 相似文献