首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
In multi-agent systems, joint-action must be employed to achieve cooperation because the evaluation of the behavior of an agent often depends on the other agents‘ behaviors. However, joint-action reinforcement learning algorithms suffer the slow convergence rate because of the enormous learning space produced by jointaction. In this article, a prediction-based reinforcement learning algorithm is presented for multi-agent cooperation tasks, which demands all agents to learn predicting the probabilities of actions that other agents may execute. A multi-robot cooperation experiment is run to test the efficacy of the new algorithm, and the experiment results show that the new algorithm can achieve the cooperation policy much faster than the primitive reinforcement learning algorithm.  相似文献   

2.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好.  相似文献   

3.
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.  相似文献   

4.
基于德普(DPRO)电梯仿真实训模型,研究了单部电梯控制逻辑和多梯集群控制方法,以乘客等待时间最小为控制目标,对电梯集群控制算法进行了优化。采用西门子S7-1200 PLC设计了电梯集群自动控制系统,通过TIA Portal软件编写了电梯群控系统程序和上位机监控画面,实现了六部电梯集群自动控制和运行状态实时监控,仿真结果表明,改进后的系统有效降低了乘客的平均候梯时间,并提高了电梯群整体工作效率。  相似文献   

5.
随着机器学习技术的不断发展,机器学习算法种类的增多以及模型复杂度提高,造成了实践应用中的两大难题:算法模型选择及模型超参数优化。为了实现模型选择和超参数优化的自动处理,该文提出了一种基于深度强化学习的优化方法。利用长短期记忆(LSTM)网络构建一个智能体(Agent),自动选择机器学习算法模型及对应的超参数组合。该智能体以最大化机器学习模型在验证数据集上的准确率为目标,利用所选择的模型在验证数据集上的准确率作为奖赏值(reward),通过强化学习算法不断学习直到找到最优的模型以及超参数组合。为了验证该方法的可行性及性能,在UCI标准数据集上将其与传统优化方法中基于树状结构Parzen的估计方法和随机搜索方法进行比较。多次实验结果证明该优化方法在稳定性、时间效率、准确度方面均具有优势。  相似文献   

6.
In cooperative multiagent systems, to learn the optimal policies of multiagents is very difficult. As the numbers of states and actions increase exponentially with the number of agents, their action policies become more intractable. By learning these value functions, an agent can learn its optimal action policies for a task. If a task can be decomposed into several subtasks and the agents have learned the optimal value functions for each subtask, this knowledge can be helpful for the agents in learning the optimal action policies for the whole task when they are acting simultaneously. When merging the agents‘ independently learned optimal value functions,a novel multiagent online reinforcement learning algorithm LU - Q is proposed. By applying a transformation to the individually learned value functions, the constraints on the optimal value functions of each subtask are loosened. In each learning iteration process in algorithm LU - Q, the agents‘ joint action set in a state is processed. Some actions of that state are pruned from the available action set according to the defined multiagent value function in LU - Q. As the items of the available action set of each state are reduced gradually in the iteration process of LU - Q, the convergence of the value functions is accelerated. LU - Q‘s effectiveness, soundness and convergence are analyzed, and the experimental results show that the learning performance of LU-Q is better than the performance of standard Q learning.  相似文献   

7.
The application of reinforcement learning is widely used by multi-agent systems in recent years. An agent uses a multi-agent system to cooperate with other agents to accomplish the given task, and one agent‘s behavior usually affects the others‘ behaviors. In traditional reinforcement learning, one agent takes the others location, so it is difficult to consider the others‘ behavior, which decreases the learning efficiency. This paper proposes multi-agent reinforcement learning with cooperation based on eligibility traces, i.e. one agent estimates the other agent‘s behavior with the other agent‘s eligibility traces. The results of this simulation prove the validity of the proposed learning method.  相似文献   

8.
文章阐明了办公大楼电梯乘客交通的基本模式和详细讨论了用泊松分布、蒙特卡罗试验确定乘客到达电梯系统呼唤电梯服务的时间以及他们的起始楼层和终止楼层的方法.文中还给出了产生乘客运动模型的程序框图和在电视屏幕仿真电梯运动、乘客运动的图式.  相似文献   

9.
本文研究了具有指定收敛速度的线性离散时间系统鲁棒跟踪设计问题。首先利用鲁棒输出调节理论描述了跟踪控制问题, 再结合系统数据与强化学习实现了具有指定收敛速度的跟踪控制。学习得到的控制方案不仅保证了跟踪误差渐近收敛到零, 而且具有针对不确定系统动态的鲁棒性。本文所述的指定收敛速度设计不依赖系统演化时间或精确系统模型, 因此是数据驱动的。  相似文献   

10.
对多部电梯进行综合调控管理具有广泛的现实意义,本文提出了在乘客等待条件下的电梯调度问题,以作为上班高峰期电梯优化调度的一种近似。并利用概率论的方法得到了电梯往返运行一次的平均时间,建立了电梯优化调度的数学模型,且采用动态规划的方法求得了乘客在等待条件下的最优调度方案,并对实例进行了计算。  相似文献   

11.
为了评估高层建筑中所配置的电梯是否满足要求,需要研究电梯的运送能力。本文提出了应用计算机动态仿真于客梯运行状况研究的方法。客梯系统是一个典型的离散型随机服务系统。选择了评估系统的指标:高峰运行时乘客的平均等待时间及乘客等待客梯运送的最大排队长度。表征客流状况的单位时间内乘客到达数是一个重要的随机变量。讨论了它的概率分布。根据其泊松分布的特性,可以算出乘客到达的时间间隔及客梯每上下一次运行所需的时间。在这个基础上,采用了下次事件推进法进行持续的仿真。所提出的客梯系统的动态仿真法不仅可以获得其它估算方法所不能获得的仿真结果,并可进一步推广到电梯群控系统。本文以单台客梯为例,给出了仿真程序框图。  相似文献   

12.
研制的基于滑动载波方式的电梯轿厢信息传输装置,采用磁耦合原理实现了电梯控制信息的非接触式传输,避免了传统方式中轿厢的随行电缆易疲劳破损的弊病。滑动载波装置的调制解调环节采用高集成度载波通信芯片ST7540完成载波信息的收发,装置的总线接口采用集成模块实现CAN-bus网络和UART设备之间的数据通信,磁耦合器的设计考虑了最佳功率传输。该装置具有零误码率的传输可靠性,对外无电波干扰的电磁兼容性,既能满足新装电梯的设计要求又方便对已安装的传统随行电缆通信方式进行升级改造等优点。  相似文献   

13.
In order to improve the long-term in orbit flight reliability of the aircraft control system, a multi-mode control scheme is proposed based on reinforcement learning. This system includes a sensor module, a control module and an execution module. The sensor module is used to input the sensitive flight data of the aircraft to the control module in real time. This data is divided into multidimensional structured floating point data with historical relevance that can be directly used for aircraft control and the unique physical representation quantity of a particular sensor. The control module is divided into an input layer, a feature extraction layer and a full connection layer. The execution module is used to receive the driving data from the control module in real time, which includes the optimal state value for decision-making and the action output value for evaluation. The system decides which specific execution modules to use based on the optimal return value for decision making, with the output value of a selected specific execution module depending on the output value of the action used for evaluation. The system enables the aircraft to complete a long-term orbit operation in the multi-mode input and output state with 15ms fast response and 5.23GOP/s/W Performance per Watt.  相似文献   

14.
提出基于VCG机制的动态频谱分配博弈模型,解决了认知无线网络环境存在的信息约束限制、分布式特性和频谱分配动态、复杂性问题;提出一种基于动态频谱分配的部分可观察马尔可夫决策过程(POMDP)强化学习算法. 认知用户通过对历史信息的观察、统计,为提高竞拍策略的奖赏值而进行不断的学习获取最优竞拍策略. 将POMDP强化学习转变为信度状态马尔可夫决策过程 (belief MDP)最优策略学习. 采用值迭代算法求解信度状态MDP模型的解. 仿真结果表明,基于POMDP强化学习算法可显著改善认知用户的行为,提高动态频谱分配性能.  相似文献   

15.
目的寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法.方法针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断TD(λ)的Q学习算法,并在计算机上实现了该算法.结果与结论在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断TD(λ)的Q学习能够加速算法收敛.  相似文献   

16.
In this paper we describe a new reinforcement learning approach based on different states. When the multiagent is in coordination state,we take all coordinative agents as players and choose the learning approach based on game theory. When the multiagent is in indedependent state,we make each agent use the independent learning. We demonstrate that the proposed method on the pursuit-evasion problem can solve the dimension problems induced by both the state and the action space scale exponentially with the number of agents and no convergence problems,and we compare it with other related multiagent learning methods. Simulation experiment results show the feasibility of the algorithm.  相似文献   

17.
移动机器人的自适应式行为融合方法   总被引:2,自引:0,他引:2  
介绍了一种基于先验知识的强化学习方法,它将传统的规则控制方法和强化学习方法相结合,在保留了已知的部分规则的情况下,利用强化学习方法对基本行为的融合机制进行了完善;同时,利用已知的规则知识对学习器进行指导,保证了学习向正确方向进行,有利于学习收敛速度的提高。文章给出了2种实现方法的结合方式,并给出了学习器的结构及参数和函数设定。最后以机器人围捕为研究背景,实现了移动机器人的自适应式行为融合,并利用仿真实验对其有效性进行验证。结果表明该方法具有收敛快、学习效果好的特点。  相似文献   

18.
模糊控制在群控电梯中的应用   总被引:2,自引:0,他引:2  
介绍了模糊控制在群控电梯中的应用,阐述了群控电梯模糊控制系统的工作原理及结构,说明采用模糊控制方法,可提高电梯的利用效率,减少乘客的平均等待时间。  相似文献   

19.
一种有限时段Markov决策过程的强化学习算法   总被引:4,自引:0,他引:4  
研究有限时段非平稳的Markov决策过程的强化学习算法。通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解。在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验。  相似文献   

20.
基于代理的用户偏好建模研究   总被引:1,自引:0,他引:1  
基于移动代理系统,将马尔可夫判决过程和智能强化学习算法相结合,提出了在异构无线网络环境下对移动用户业务偏好进行智能建模的技术框架.为动态环境下用户需求的感知、量化和适配特征的研究提供了基本的数学描述,为解决用户体验的评价问题和业务与业务环境的适配问题提供了新的研究思路.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号