首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
This article presents a general class of associative reinforcement learning algorithms for connectionist networks containing stochastic units. These algorithms, called REINFORCE algorithms, are shown to make weight adjustments in a direction that lies along the gradient of expected reinforcement in both immediate-reinforcement tasks and certain limited forms of delayed-reinforcement tasks, and they do this without explicitly computing gradient estimates or even storing information from which such estimates could be computed. Specific examples of such algorithms are presented, some of which bear a close relationship to certain existing algorithms while others are novel but potentially interesting in their own right. Also given are results that show how such algorithms can be naturally integrated with backpropagation. We close with a brief discussion of a number of additional issues surrounding the use of such algorithms, including what is known about their limiting behaviors as well as further considerations that might be used to help develop similar but potentially more powerful reinforcement learning algorithms.  相似文献   

2.
基于再励学习的多移动机器人协调避障路径规划方法   总被引:1,自引:0,他引:1  
随着多移动机器人协调系统的应用向未知环境发展,一些依赖于环境模型的路径规划方法不再适用。而利用再励学习与环境直接交互,不需要先验知识和样本数据的特点,该文将再励学习应用于多机器人协调系统中,提出了基于再励学习的避障路径规划方法,并将再励函数设计为基于行为分解的无模型非均匀结构。计算机仿真实验结果表明该方法有效,并有较好的鲁棒性,新的再励函数结构使得学习速度得以提高。  相似文献   

3.
路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径.阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学...  相似文献   

4.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

5.
AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。  相似文献   

6.
移动机器人路径规划问题的节点数量大、搜索空间广, 且对安全性和实时性有要求等因素, 针对移动机器人多目标路径规划问题, 提出一种新颖的融合强化学习的多目标智能优化算法. 首先, 该算法采用NSGA-II为基础框架, 利用强化学习的赋予个体学习能力, 设计一种SARSA算子提高算法的全局搜索效率. 其次, 为了加速算法的收敛速度和保证种群多样性, 增加自适应模拟二进制交叉算子(tanh-SBX)作为辅助算子, 并将种群分为两种性质不同的子种群: 精英种群和非精英种群. 最后, 设计了4种不同的策略, 通过模拟退火算法的Metropolis准则计算更新策略的概率, 让最合适的策略引导种群的优化方向, 以平衡探索和利用. 仿真实验表明, 该算法在不同复杂度的环境下均能找到最佳路径. 相比传统智能仿生算法, 在更加复杂的环境中, 所提出的算法能有效平衡优化目标, 找到更优的安全路径.  相似文献   

7.
苏世雄  齐金平 《测控技术》2016,35(7):124-127
随着互联网的迅速发展,自适应系统受到越来越多的关注,目前,大部分自适应系统的规划都是预先定义的,但是在开放的互联网环境中,这种预知的规划策略往往灵活性和智能性不高,针对系统运行环境通常是动态的、不确定的,系统设计阶段难以预测到环境所有可能的变化,在设计阶段系统针对环境变化所采取的自适应行为也是难以预先确定的.因此,提出一种系统运行时根据环境的变化在线制定规划的自适应行为策略.采用基于强化学习和Agent技术,对自适应系统的行为进行描述、分析,最后通过相关实验对该策略进行验证,结果表明该在线规划具有自适应能力.  相似文献   

8.
为实现复杂任务环境中多无人机的自主飞行, 本文采用改进的强化学习算法,设计了一种具有避碰避障功能的多无人机智能航迹规划策略。通过改进搜索策略、引入具有近似功能的神经网络函数、构造合理的立即回报函数等方法,提高算法运算的灵活性、降低无人机运算负担, 使得多无人机能够考虑复杂任务环境中风速等随机因素以及静态和动态威胁的影响, 自主规划出从初始位置到指定目标点的安全可行航迹。为了探索所提算法在实际飞行过程的可行性, 本文以四旋翼无人机为实验对象, 在基于ROS的仿真环境中验证了算法的可行性与有效性。  相似文献   

9.
多Agent协作的强化学习模型和算法   总被引:2,自引:0,他引:2  
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。  相似文献   

10.
基于强化学习的多Agent系统   总被引:4,自引:0,他引:4  
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个  相似文献   

11.
程小平  邱玉辉 《计算机科学》2002,29(12):133-134
1 引言在数据挖掘、智能控制、模式识别中,数据聚类始终是一种基本需要。在缺乏对数据类属的先验知识的情况下,多采用无监督学习方法来训练分类器。强化学习(reinforcement learning,也称增强学习,自励学习)是一种介于有监督学习和无监督学习之间的一种机器学习方法,它利用少量的评价信息改善系统行为。强化学习与动物学习理论,认知科学,学习自动机理论有密切的关系。近年  相似文献   

12.
多智能体协作的两层强化学习实现方法   总被引:3,自引:0,他引:3  
提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好。  相似文献   

13.
基于深度强化学习的平行企业资源计划   总被引:1,自引:0,他引:1  
秦蕊  曾帅  李娟娟  袁勇 《自动化学报》2017,43(9):1588-1596
传统的企业资源计划(Enterprise resource planning,ERP)采用静态化的业务流程设计理念,忽略了人的关键作用,且很少涉及系统性的过程模型,因此难以应对现代企业资源计划的复杂性要求.为实现现代企业资源计划的新范式,本文在ACP(人工社会(Artificial societies)、计算实验(Computational experiments)、平行执行(Parallel execution))方法框架下,以大数据为驱动,融合深度强化学习方法,构建基于平行管理的企业ERP系统.首先基于多Agent构建ERP整体建模框架,然后针对企业ERP的整个流程建立序贯博弈模型,最后运用基于深度强化学习的神经网络寻找最优策略,解决复杂企业ERP所面临的不确定性、多样性和复杂性.  相似文献   

14.
强化学习对信息融合系统的改进   总被引:2,自引:0,他引:2  
范波  潘泉  张洪才  程咏梅 《计算机工程》2004,30(3):44-45,116
通过分析和研究强化学习的结构和算法,将其引入到信息融合系统中,提出了基于强化学习的信息融合系统,并讨论了它的应用和发展。通过对多智能技术的借鉴,使信息融合系统有进一步的发展。  相似文献   

15.
针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费.结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务.在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能.  相似文献   

16.
Elevator Group Control Using Multiple Reinforcement Learning Agents   总被引:22,自引:0,他引:22  
Crites  Robert H.  Barto  Andrew G. 《Machine Learning》1998,33(2-3):235-262
Recent algorithmic and theoretical advances in reinforcement learning (RL) have attracted widespread interest. RL algorithms have appeared that approximate dynamic programming on an incremental basis. They can be trained on the basis of real or simulated experiences, focusing their computation on areas of state space that are actually visited during control, making them computationally tractable on very large problems. If each member of a team of agents employs one of these algorithms, a new collective learning algorithm emerges for the team as a whole. In this paper we demonstrate that such collective RL algorithms can be powerful heuristic methods for addressing large-scale control problems.Elevator group control serves as our testbed. It is a difficult domain posing a combination of challenges not seen in most multi-agent learning research to date. We use a team of RL agents, each of which is responsible for controlling one elevator car. The team receives a global reward signal which appears noisy to each agent due to the effects of the actions of the other agents, the random nature of the arrivals and the incomplete observation of the state. In spite of these complications, we show results that in simulation surpass the best of the heuristic elevator control algorithms of which we are aware. These results demonstrate the power of multi-agent RL on a very large scale stochastic dynamic optimization problem of practical utility.  相似文献   

17.
随着移动互联网的快速发展,许多利用手机App打车的网约车平台也应运而生.这些网约车平台大大减少了网约车的空驶时间和乘客等待时间,从而提高了交通效率.作为平台核心模块,网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客,从而提升平台的运营效率,近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deep Q-network, DQN)来解决这一问题.然而,由于基于值函数的方法存在局限,无法应用到高维和连续的动作空间.提出了一种具有动作采样策略的执行者-评论者(actor-critic with action sampling policy, AS-AC)算法来学习最优的空驶网约车调度策略,该方法能够感知路网中的供需分布,并根据供需不匹配度来确定最终的调度位置.在纽约市和海口市的网约车订单数据集上的实验表明,该算法取得了比对比算法更低的请求拒绝率.  相似文献   

18.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。  相似文献   

19.
基于增强学习的代理谈判模型   总被引:2,自引:0,他引:2  
张化祥  黄上腾 《计算机工程》2004,30(10):137-139
利用增强学习的Q-leanling理论,构造了一个基于时间信念、价格信念和状态期望Q值的代理谈判模型。将代理交互报价的过程看成代理选择报价行动,实现状态的迁移,可以计算出代理在不同状态采取行动的Q值。代理可以通过修改信念函数及时问贴现率来调整报价。该文实现了谈判模型的报价算法,并从理论和实验数据两方面进行了分析比较。  相似文献   

20.
This paper studies the problem of transfer learning in the context of reinforcement learning. We propose a novel transfer learning method that can speed up reinforcement learning with the aid of previously learnt tasks. Before performing extensive learning episodes, our method attempts to analyze the learning task via some exploration in the environment, and then attempts to reuse previous learning experience whenever it is possible and appropriate. In particular, our proposed method consists of four stages: 1) subgoal discovery, 2) option construction, 3) similarity searching, and 4) option reusing. Especially, in order to fulfill the task of identifying similar options, we propose a novel similarity measure between options, which is built upon the intuition that similar options have similar stateaction probabilities. We examine our algorithm using extensive experiments, comparing it with existing methods. The results show that our method outperforms conventional non-transfer reinforcement learning algorithms, as well as existing transfer learning methods, by a wide margin.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号