共查询到20条相似文献,搜索用时 125 毫秒
1.
本文提出一种用于分布式多Agent环境的以BDI模型为基础构建信息Agent的方法,给出了PERFORM(PERsonal inFORmation Manager)系统的模型和算法。 相似文献
2.
一种基于Agent团队的强化学习模型与应用研究 总被引:22,自引:2,他引:20
多Agent学习是近年来受到较多关注的研究方向,以单Agent强化Q-learning算法为基础,提出了一种基于Agent团队的强化学习模,这个模型的最大特点是引入主导Agent作为团队学习的主角,并通过主导Agent的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Q-learning进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效 相似文献
3.
MDOCEM中的一种启发式任务分解算法 总被引:2,自引:0,他引:2
本文主要讨论基于多Agent的分布式开放计算环境模型(MDOCEM)中的任务分解问题。我们首先用一种形式化方法描述了任务分解问题,然后提出了一种求解该问题的近似最优解的启发式算法。 相似文献
4.
5.
协同质量管理的工作流模型与应用 总被引:1,自引:1,他引:1
质量控制和管理是企业CIMS应用的一个重要环节,随着企业全面质量管理的展开和CIMS应用的不断深入,迫切需要研制基于网络的协同式的质量管理系统。在质量管理PDCA循环模式的基础上,我们提出了基于PDCA,多Agent的工作流模型,实现了一个能较全面地,较实际地反映企业质量管理中信息处理以及信息流向的,以协同计算方式来表达的质量信息管理系统模型(CQMWF)。基于Lotus Notes平台的系统研制 相似文献
6.
多智能体系统支撑环境MAS/TH-5 总被引:3,自引:0,他引:3
MAS/TH-5系统是具有一定开放性的支持MAS构造与集成的支撑环境,它将开发与运行环境集为一体,形成整体解决方案.同时,文中所构造的具有实际应用价值的Agent模型,为支撑环境提供了理论和技术基础.这种模型具有理性平衡的特点.该模型还为用户提供了建立其他Agent模型的一般性框架,可以满足MAS系统中Agent交互的需求.在支撑环境上,文中所设计的Agent语言具有描述BDI等思维状态的能力,可处理较复杂的实际应用问题. 相似文献
7.
基于BDI的多Agent交互 总被引:8,自引:0,他引:8
给出一个以Agent交互为基本出发点的BDI描述语言MAL,对MAL反映的BDI概念,BDI间的关系以及多Agent群体的社会承诺和联合意图进行了解释,说明了BDI在多Agnet交互过程中的起的作用,与Cohen和Levesque,Rao和Georgeff以及haddadi等人的工作相比,MAL同时Agent个体和多Agent群体的BDI描述,克服了对BDI概念的反直观解释,给出了符合哲学含义的关 相似文献
8.
基于MAPE系统的CSCW框架与协同管理Agent的模型设计 总被引:3,自引:2,他引:1
该文针对多Agent处理环境,在[1][2]基础上给出了一个CSCW的系统框架。为了提高协同工作的效率,在[10]的基础上提出了协同管理Agent模型。该模型除具有一般Agent的功能外,它还有三个子系统:通讯管理子系统、信息管理子系统和群决策支持系统。并把该框架与模型运用于制造工程领域,提出了一个CAD/CAM/CAPP一体化的协同工作框架。 相似文献
9.
10.
11.
Learning automata (LA) were recently shown to be valuable tools for designing Multi-Agent Reinforcement Learning algorithms and are able to control the stochastic games. In this paper, the concepts of stigmergy and entropy are imported into learning automata based multi-agent systems with the purpose of providing a simple framework for interaction and coordination in multi-agent systems and speeding up the learning process. The multi-agent system considered in this paper is designed to find optimal policies in Markov games. We consider several dummy agents that walk around in the states of the environment, make local learning automaton active, and bring information so that the involved learning automaton can update their local state. The entropy of the probability vector for the learning automata of the next state is used to determine reward or penalty for the actions of learning automata. The experimental results have shown that in terms of the speed of reaching the optimal policy, the proposed algorithm has better learning performance than other learning algorithms. 相似文献
12.
13.
强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望. 相似文献
14.
Reinforcement learning is the problem of generating optimal behavior in a sequential decision-making environment given the opportunity of interacting with it. Many algorithms for solving reinforcement-learning problems work by computing improved estimates of the optimal value function. We extend prior analyses of reinforcement-learning algorithms and present a powerful new theorem that can provide a unified analysis of such value-function-based reinforcement-learning algorithms. The usefulness of the theorem lies in how it allows the convergence of a complex asynchronous reinforcement-learning algorithm to be proved by verifying that a simpler synchronous algorithm converges. We illustrate the application of the theorem by analyzing the convergence of Q-learning, model-based reinforcement learning, Q-learning with multistate updates, Q-learning for Markov games, and risk-sensitive reinforcement learning. 相似文献
15.
Katja Verbeeck Ann Nowé Johan Parent Karl Tuyls 《Autonomous Agents and Multi-Agent Systems》2007,14(3):239-269
In this paper we introduce a new multi-agent reinforcement learning algorithm, called exploring selfish reinforcement learning
(ESRL). ESRL allows agents to reach optimal solutions in repeated non-zero sum games with stochastic rewards, by using coordinated
exploration. First, two ESRL algorithms for respectively common interest and conflicting interest games are presented. Both
ESRL algorithms are based on the same idea, i.e. an agent explores by temporarily excluding some of the local actions from
its private action space, to give the team of agents the opportunity to look for better solutions in a reduced joint action
space. In a latter stage these two algorithms are transformed into one generic algorithm which does not assume that the type
of the game is known in advance. ESRL is able to find the Pareto optimal solution in common interest games without communication.
In conflicting interest games ESRL only needs limited communication to learn a fair periodical policy, resulting in a good
overall policy. Important to know is that ESRL agents are independent in the sense that they only use their own action choices
and rewards to base their decisions on, that ESRL agents are flexible in learning different solution concepts and they can
handle both stochastic, possible delayed rewards and asynchronous action selection. A real-life experiment, i.e. adaptive
load-balancing of parallel applications is added. 相似文献
16.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解. 相似文献
17.
强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa(λ)学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。 相似文献
18.
强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa(λ)学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。 相似文献
19.
20.
基于后悔值的多Agent冲突博弈强化学习模型 总被引:1,自引:0,他引:1
对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 相似文献