期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

金志军王浩方宝富《计算机工程》2023,(5):302-309

强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法。受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态。在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用。在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15%左右,所需时间步降低20%左右,在合作导航任务中也具有较快的收敛速度。相似文献

2.

深度强化学习中稀疏奖励问题研究综述 总被引：1，自引：0，他引：1

杨惟轶白辰甲蔡超赵英男刘鹏《计算机科学》2020,47(3):182-191

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。相似文献

3.

强化学习稀疏奖励算法研究——理论与实验

下载免费PDF全文

杨瑞严江鹏李秀《智能系统学报》2020,15(5):888-899

近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。相似文献

4.

稀疏奖励场景下基于个体落差情绪的多智能体协作算法

王浩汪京方宝富《模式识别与人工智能》2022,(5):451-460

针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性. 相似文献

5.

基于奖励滤波信用分配的多智能体深度强化学习算法

徐诚殷楠段世红何昊王然《计算机学报》2022,(11):2306-2320

近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体学会协作成为当前的一大研究热点.在这一过程中,多智能体信用分配问题亟待解决.这是因为部分可观测环境会针对智能体产生的联合动作产生奖励强化信号,并将其用于强化学习网络参数的更新.也就是说,当所有智能体共享一个相同的全局奖励时,难以确定系统中的每一个智能体对整体所做出的贡献.除此之外,当某个智能体提前学习好策略并获得较高的回报时,其他智能体可能停止探索,使得整个系统陷入局部最优.针对这些问题,本文提出了一种简单有效的方法,即基于奖励滤波的信用分配算法.将其他智能体引起的非平稳环境影响建模为噪声,获取集中训练过程中的全局奖励信号,经过滤波后得到每个智能体的局部奖励,用于协调多智能体的行为,更好地实现奖励最大化.我们还提出了基于奖励滤波的多智能体深度强化学习(RF-MADRL)框架,并在Open AI提供的合作导航环境中成功地进行了验证.实验结果表明,和基线算法相比,使用基于奖... 相似文献

6.

基于多智能体强化学习的端到端合作的自适应奖励方法

史殿习赵琛然张耀文杨绍武张拥军《计算机科学》2022,(8):247-256

目前,多智能体强化学习算法大多采用集中训练分布执行的方法,且在同构多智能体系统中取得了良好的效果。但是,由不同角色构成的异构多智能体系统往往存在信用分配问题,导致智能体很难学习到有效的合作策略。针对上述问题,提出了一种基于多智能体强化学习的端到端合作的自适应奖励方法,该方法能够促进智能体之间合作策略的生成。首先,提出了一种批正则化网络,该网络采用图神经网络对异构多智能体合作关系进行建模,利用注意力机制对关键信息进行权重计算,使用批正则化方法对生成的特征向量进行有效融合,使算法向正确的学习方向进行优化和反向传播,进而有效提升异构多智能体合作策略生成的性能;其次,基于演员-评论家方法,提出了一种双层优化的自适应奖励网络,将稀疏奖励转化为连续奖励,引导智能体根据场上形势生成合作策略。通过实验对比了当前主流的多智能体强化学习算法,结果表明,所提算法在“合作-博弈”场景中取得了显著效果,通过对策略-奖励-行为相关性的可视化分析,进一步验证了所提算法的有效性。相似文献

7.

面向稀疏奖励的机器人操作技能学习

吴培良张彦毛秉毅陈雯柏高国伟《控制理论与应用》2024,41(1):99-108

基于深度强化学习的机器人操作技能学习成为研究热点, 但由于任务的稀疏奖励性质, 学习效率较低. 本文提出了基于元学习的双经验池自适应软更新事后经验回放方法, 并将其应用于稀疏奖励的机器人操作技能学习问题求解. 首先, 在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数, 并加入温度自适应调整策略, 动态调整温度参数以适应不同的任务环境; 其次, 结合元学习思想对经验回放进行分割, 训练时动态调整选取真实采样数据和构建虚拟数的比例, 提出了DAS-HER方法; 然后, 将DAS-HER算法应用到机器人操作技能学习中, 构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架; 最后, 在Mujoco下的Fetch和Hand环境中, 进行了8项任务的对比实验, 实验结果表明, 无论是在训练效率还是在成功率方面, 本文算法表现均优于其他算法. 相似文献

8.

基于相似性的CITCP强化学习奖励策略

杨羊潘超月曹天歌李征《计算机系统应用》2022,31(2):325-334

在面向持续集成测试用例优先排序(continuous integration test case prioritization,CITCP)的强化学习方法中,智能体通过对测试用例实施奖励从而调整测试用例优先排序策略以适应后续集成测试,可以满足持续集成测试频繁迭代和快速反馈的需求.智能体通常只奖励执行失效测试用例,但实际... 相似文献

9.

稀疏异质多智能体环境下基于强化学习的课程学习框架

罗睿卿曾坤张欣景《计算机科学》2024,(1):301-309

现代战争的战场较大且兵种较多，利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力，从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化：各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定，可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用，分别就这两方面进行改进研究。首先，设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化，添加了多种异质智能体和作战单位分布稀疏的场景，这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性，使用常用的多智能体算法通常难以训练。其次，提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块：1)任务生成模块(STG),用于生成源任务以引导智能体训练；2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性，提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略，实现了异质智能体系统中的参数共享；3)训练模... 相似文献

10.

多智能体强化学习综述 总被引：1，自引：0，他引：1

杜威丁世飞《计算机科学》2019,46(8)

相似文献

11.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。相似文献

12.

强化学习算法中启发式回报函数的设计及其收敛性分析 总被引：3，自引：0，他引：3

魏英姿赵明扬《计算机科学》2005,32(3):190-193

(中国科学院沈阳自动化所机器人学重点实验室沈阳110016) 相似文献

13.

序列多智能体强化学习算法

史腾飞王莉黄子蓉《模式识别与人工智能》2021,34(3):206-213

针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的... 相似文献

14.

基于模型的机器人强化学习研究综述

孙世光兰旭光张翰博郑南宁《模式识别与人工智能》2022,35(1):1-16

基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、... 相似文献

15.

Modeling dopamine activity by Reinforcement Learning methods: implications from two recent models

Patrick Horgan Fred Cummins 《Artificial Intelligence Review》2006,26(1-2):49-62

We compare and contrast two recent computational models of dopamine activity in the human central nervous system at the level of single cells. Both models implement reinforcement learning using the method of temporal differences (TD). To address drawbacks with earlier models, both models employ internal models. The principal difference between the internal models lies in the degree to which they implement the properties of the environment. One employs a partially observable semi-Markov environment; the other uses a form of transition matrix in an iterative manner to generate the sum of future predictions. We show that the internal models employ fundamentally different assumptions and that the assumptions are problematic in each case. Both models lack specification regarding their biological implementation to different degrees. In addition, the model employing the partially observable semi-Markov environment seems to have redundant features. In contrast, the alternate model appears to lack generalizability. 相似文献

16.

基于深度强化学习的遥感图像可解释目标检测方法

赵佳琦张迪周勇陈思霖唐嘉澜姚睿《模式识别与人工智能》2021,34(9):777-786

随着遥感技术的飞速发展,遥感图像目标检测在资源勘探、城市规划、自然灾害评估等方面得到广泛应用.遥感影像背景复杂、目标尺度较小,难以检测.针对此问题,文中提出基于深度强化学习的遥感图像可解释目标检测方法.首先,将深度强化学习应用于超快速区域神经网络中的候选区域生成网络,修改激励函数,提高对遥感图像的检测精度.然后,将原有参数量较大的主干网络轻量化,提高方法的检测速度和可移植性.最后,利用网络解剖方法对隐层表征的可解释性进行量化,赋予方法人类理解的可解释性概念.实验表明,文中方法在3个公开的遥感数据集上的性能有所提升.通过改进的网络解剖方法进一步验证方法的有效性. 相似文献

17.

深度强化学习研究综述

杨思明单征丁煜李刚伟《计算机工程》2021,47(12):19-29

深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。相似文献

18.

随机博弈框架下的多agent强化学习方法综述 总被引：4，自引：0，他引：4

宋梅萍顾国昌张国印《控制与决策》2005,20(10):1081-1090

多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向. 相似文献

19.

基于多智能体强化学习的新强化函数设计

左国玉张红卫韩光胜《控制工程》2009,16(2)

为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统一Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数.新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚.基于新设计的强化函数的Sarsa(A)算法成功应用在Keepaway平台上.仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法栽Keepaway平台的性能表现.其最终的学习效果更好. 相似文献