首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于强化学习的多Agent系统   总被引:4,自引:0,他引:4  
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个  相似文献   

3.
强化学习系统及其基于可靠度最优的学习算法   总被引:3,自引:0,他引:3  
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念,针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度优准则模型,分别结合随机逼近理论和时间差分理论,提出了基于概率估计的J-学习和无需建增量R-学习。  相似文献   

4.
近年来,强化学习在电子游戏、棋类、决策控制等领域取得了巨大进展,也带动着金融交易系统的迅速发展.金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义.以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述.最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望.  相似文献   

5.
基于粗集理论知识表达系统的一种归纳学习方法   总被引:43,自引:2,他引:43  
吴福保  李奇 《控制与决策》1999,14(3):206-211
基于粗集(RS)理论,针对知识表达系统提出一种新的归纳学习方法,对该方法中条件属性的简化,核值表的求取,决策规则的约简进行了详细讨论,并给出相应的求解算法,本方法为机器学习以及从数据库中进行机器发现提供了新的思路。  相似文献   

6.
王雨田 《软件学报》1993,4(6):47-53
逻辑主义对人工智能具有重大的意义,但也有其局限性(特别是对于归纳的模拟),现代归纳逻辑作为一类非标准逻辑应成为归纳学习逻辑基础的重要组成部分,对此值得进一步加以探讨。  相似文献   

7.
深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。  相似文献   

8.
高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率.  相似文献   

9.
在Robo Cup Keepaway任务训练中,传统手工抢球策略的主观性强,对训练情形变化的适应性差,导致抢球球员任务完成时间长、抢断成功率低。针对这一问题,将强化学习应用于Keepaway中抢球球员的高层动作决策。通过对抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法。实验结果表明经强化学习后,抢球球员能够根据比赛情形做出更客观的决策,决策效果显著优于手工策略。对于4v3和5v4规模的典型Keepaway任务,抢球球员采用学习后的策略决策时,抢球任务完成时间至少缩短了7.1%,抢断成功率至少提升了15.0%。  相似文献   

10.
针对计算机视觉领域的目标跟踪问题,提出基于强化学习的目标框偏移决策跟踪方法。近年来目标跟踪主要研究趋势是基于孪生网络或相关滤波的跟踪方法。与现有跟踪方法不同,提出的方法通过将目标跟踪视为动作序贯决策问题,设计动作决策网络,使得该网络可以用于预测目标边框的偏移,连续移动目标框实现目标跟踪。动作决策网络基于强化学习方式训练,使得该决策网络能使用标注不全的数据集训练。实验表明,提出的跟踪方法在视觉目标跟踪(Visual object tracking, VOT)数据集上表现优异,能有效应对多种复杂场景,具备较高的跟踪精度。  相似文献   

11.
基于值函数和策略梯度的深度强化学习综述   总被引:1,自引:0,他引:1  
  相似文献   

12.
对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易的事,通常与构建一个好的对话代理一样困难.为了避免显式地构建一个用户模拟器,提出了一种PPO强化学习的多智能体对话策略学习方法,将系统端和用户端都构建为智能体.该方法主要通过两个阶段进行策略学习:1)阶段1是模仿学习,采用模仿学习中的行为克隆的方式,对系统策略和用户策略进行预训练;2)阶段2是多智能体强化学习,采用一种数据样本利用率更高以及鲁棒性更好的近端策略优化(PPO)算法,对系统端和用户端的对话策略进行学习.最后,在公开的多域多意图的面向任务的对话语料MultiWOZ上进行了实验,验证了方法的有效性,还分析了在复杂任务中的可伸缩性.此外,将学到的对话策略集成到ConvLab-2平台上进行整体效果评估.  相似文献   

13.
14.
隋新  蔡国永  史磊 《计算机工程》2010,36(17):198-200
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。  相似文献   

15.
自适应系统所处的环境往往是不确定的,其变化事先难以预测,如何支持这种环境下复杂自适应系统的开发已经成为软件工程领域面临的一项重要挑战.强化学习是机器学习领域中的一个重要分支,强化学习系统能够通过不断试错的方式,学习环境状态到可执行动作的最优对应策略.本文针对自适应系统环境不确定的问题,将Agent技术与强化学习技术相结...  相似文献   

16.
基于博弈策略强化学习的函数优化算法   总被引:2,自引:0,他引:2  
该文提出了一种基于博弈论的函数优化算法。算法将优化问题的搜索空间映射为博弈的策略组合空间,优化目标函数映射为博弈的效用函数,通过博弈策略的强化学习过程智能地求解函数优化问题。文章给出了算法的形式定义及描述,然后在一组标准的函数优化测试集上进行了仿真运算,验证了算法的有效性。  相似文献   

17.
为解决传统遗传算法早熟收敛和收敛速度慢的问题,提出一种基于强化学习的多策略选择遗传算法MPSGA。通过使用不同的选择策略将整个种群划分为3个子种群并分别进化,能提高种群的多样性,有效避免遗传算法的早熟收敛问题。将种群的多样性和算法的运行机制相结合,根据种群多样性的变化运用强化学习算法动态地优化各子种群间的比例参数,从而将种群多样性保持在合适的范围,一定程度上解决了收敛速度和全局收敛性之间的矛盾。实验结果表明,该算法在收敛精度和搜索效率上都表现出较好的性能。  相似文献   

18.
19.
1.引言学习是人类获取知识的主要形式,也是人类具有智能的显著标志,是人类提高智能水平的基本途径。建造具有类似人的智能机器(Agent)是智能控制、人工智能的研究目标。要使机器具有一定的智能,一种方式是靠人事先编程来建立知识库和推理机制,这具有明显的局限性。我们希望Agent具有向环境学习的能力,即自动获取知识、积累经验、不断更新和扩充知识,  相似文献   

20.
任燚  陈宗海 《控制与决策》2006,21(4):430-434
多机器人系统中,随着机器人数目的增加.系统中的冲突呈指数级增加.甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务.以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突.避免死锁.提高系统整体性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号