首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。  相似文献   

2.
深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的研究进行概述,对深度强化学习基本原理进行介绍,包括深度学习和强化学习。介绍深度强化学习算法应用的理论方法,在此基础对深度强化学习的算法进行了分类介绍,分别介绍了基于值函数和基于策略梯度的强化学习算法,列举了这两类算法的主要发展成果,以及其他相关研究成果。对深度强化学习在智能制造的典型应用进行分类分析。对深度强化学习存在的问题和未来发展方向进行了讨论。  相似文献   

3.
多智能体深度强化学习研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。  相似文献   

4.
多智能体深度强化学习的若干关键科学问题   总被引:6,自引:0,他引:6  
孙长银  穆朝絮 《自动化学报》2020,46(7):1301-1312
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战. 近年来, 深度学习迅猛发展, 使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能. 本文综述了强化学习和深度强化学习方法的原理, 提出学习系统的闭环控制框架, 分析了多智能体深度强化学习中存在的若干重要问题和解决方法, 包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题, 对所调查方法的优缺点和相关应用进行分析和讨论. 最后提供多智能体深度强化学习未来的研究方向, 为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.  相似文献   

5.
多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性...  相似文献   

6.
为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统一Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数.新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚.基于新设计的强化函数的Sarsa(A)算法成功应用在Keepaway平台上.仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法栽Keepaway平台的性能表现.其最终的学习效果更好.  相似文献   

7.
强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望.  相似文献   

8.
多南讯  吕强  林辉灿  卫恒 《机器人》2019,41(2):276-288
首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望.  相似文献   

9.
强化学习是人工智能的重要分支,具备与环境直接交互学习能力并具有优化决策的特点。强化学习问世以来便受到科研学者广泛关注,并探索其与深度学习之间融合的可能性。强化学习应用广泛,渗透教育、医药卫生、制造业、金融等多个领域。通过总结值函数与策略更新两种深度强化学习算法的演变历程,分别探索强化学习在智能路径规划领域中的优化算法,探讨算法落地过程中的难点及发展方向。  相似文献   

10.
张立华  刘全  黄志刚  朱斐 《软件学报》2023,34(10):4772-4803
逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.  相似文献   

11.
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习.同时,系统性地总结和分析了记忆增强型深度强化学习的一系列研究成果存在的优势和不足.另外,给出了深度强化学习常用的训练环境.最后,对记忆增强型深度强化学习进行了展望,指出了未来研究方向.  相似文献   

12.
多Agent深度强化学习综述   总被引:10,自引:4,他引:6  
近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.  相似文献   

13.
基于自回归预测模型的深度注意力强化学习方法   总被引:1,自引:0,他引:1  
近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如Alpha Go、Open AI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.  相似文献   

14.
复杂未知环境下智能感知与自动控制是目前机器人在控制领域的研究热点之一,而新一代人工智能为其实现智能自动化赋予了可能.近年来,在高维连续状态-动作空间中,尝试运用深度强化学习进行机器人运动控制的新兴方法受到了相关研究人员的关注.首先,回顾了深度强化学习的兴起与发展,将用于机器人运动控制的深度强化学习算法分为基于值函数和策略梯度2类,并对各自典型算法及其特点进行了详细介绍;其次,针对仿真至现实之前的学习过程,简要介绍5种常用于深度强化学习的机器人运动控制仿真平台;然后,根据研究类型的不同,综述了目前基于深度强化学习的机器人运动控制方法在自主导航、物体抓取、步态控制、人机协作以及群体协同等5个方面的研究进展;最后,对其未来所面临的挑战以及发展趋势进行了总结与展望.  相似文献   

15.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.  相似文献   

16.
陈佳盼  郑敏华 《机器人》2022,44(2):236-256
通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。  相似文献   

17.
针对传统深度强化学习(deep reinforcement learning,DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法(ADE)的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络(deep deterministic policy gradient,DDPG)节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号