期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于BDI模型构建信息Agent 总被引：1，自引：0，他引：1

下载免费PDF全文

赵加欣陈跃新《计算机工程与科学》2000,22(5):92-95

本文提出一种用于分布式多Ａｇｅｎｔ环境的以ＢＤＩ模型为基础构建信息Ａｇｅｎｔ的方法,给出了ＰＥＲＦＯＲＭ（ＰＥＲｓｏｎａｌｉｎＦＯＲｍａｔｉｏｎＭａｎａｇｅｒ）系统的模型和算法。相似文献

2.

一种基于Agent团队的强化学习模型与应用研究 总被引：22，自引：2，他引：20

蔡庆生张波《计算机研究与发展》2000,37(9):1087-1093

多Ａｇｅｎｔ学习是近年来受到较多关注的研究方向,以单Ａｇｅｎｔ强化Ｑ－ｌｅａｒｎｉｎｇ算法为基础,提出了一种基于Ａｇｅｎｔ团队的强化学习模,这个模型的最大特点是引入主导Ａｇｅｎｔ作为团队学习的主角,并通过主导Ａｇｅｎｔ的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Ｑ－ｌｅａｒｎｉｎｇ进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效相似文献

3.

MDOCEM中的一种启发式任务分解算法 总被引：2，自引：0，他引：2

何炎祥宋文欣《小型微型计算机系统》1999,20(12):893-895

本文主要讨论基于多Ａｇｅｎｔ的分布式开放计算环境模型（ＭＤＯＣＥＭ）中的任务分解问题。我们首先用一种形式化方法描述了任务分解问题，然后提出了一种求解该问题的近似最优解的启发式算法。相似文献

4.

远程教学的Agent模型 总被引：21，自引：0，他引：21

蔡洪斌周明天杨国纬《计算机应用》1999,19(6):12-15

利用网络进行远程教学有很多优点,本文讨论如何把Ａｇｅｎｔ技术应用到远程教学中,以增强教学效果,在多Ａｇｅｎｔ通信语言ＫＱＭＬ的基础上,提出了远程教学的Ａｇｅｎｔ模型,设计了Ａｇｅｎｔ的能力编码,通过对搜索教师Ａｇｅｎｔ算法的时间复杂度分析,说明在该模型中搜索教师Ａｇｅｎｔ是可行的和有效的。相似文献

5.

协同质量管理的工作流模型与应用 总被引：1，自引：1，他引：1

袁潜龙吴朝晖《计算机辅助设计与图形学学报》1998,10(6):520-527

质量控制和管理是企业ＣＩＭＳ应用的一个重要环节，随着企业全面质量管理的展开和ＣＩＭＳ应用的不断深入，迫切需要研制基于网络的协同式的质量管理系统。在质量管理ＰＤＣＡ循环模式的基础上，我们提出了基于ＰＤＣＡ，多Ａｇｅｎｔ的工作流模型，实现了一个能较全面地，较实际地反映企业质量管理中信息处理以及信息流向的，以协同计算方式来表达的质量信息管理系统模型（ＣＱＭＷＦ）。基于ＬｏｔｕｓＮｏｔｅｓ平台的系统研制相似文献

6.

多智能体系统支撑环境MAS/TH-5 总被引：3，自引：0，他引：3

李毅石纯一《计算机研究与发展》1999,36(5):8-533

ＭＡＳ／ＴＨ－５系统是具有一定开放性的支持ＭＡＳ构造与集成的支撑环境,它将开发与运行环境集为一体,形成整体解决方案．同时,文中所构造的具有实际应用价值的Ａｇｅｎｔ模型,为支撑环境提供了理论和技术基础．这种模型具有理性平衡的特点．该模型还为用户提供了建立其他Ａｇｅｎｔ模型的一般性框架,可以满足ＭＡＳ系统中Ａｇｅｎｔ交互的需求．在支撑环境上,文中所设计的Ａｇｅｎｔ语言具有描述ＢＤＩ等思维状态的能力,可处理较复杂的实际应用问题．相似文献

7.

基于BDI的多Agent交互 总被引：8，自引：0，他引：8

康小强石纯一《计算机学报》1999,22(11):1166-1171

给出一个以Ａｇｅｎｔ交互为基本出发点的ＢＤＩ描述语言ＭＡＬ,对ＭＡＬ反映的ＢＤＩ概念,ＢＤＩ间的关系以及多Ａｇｅｎｔ群体的社会承诺和联合意图进行了解释,说明了ＢＤＩ在多Ａｇｎｅｔ交互过程中的起的作用,与Ｃｏｈｅｎ和Ｌｅｖｅｓｑｕｅ,Ｒａｏ和Ｇｅｏｒｇｅｆｆ以及ｈａｄｄａｄｉ等人的工作相比,ＭＡＬ同时Ａｇｅｎｔ个体和多Ａｇｅｎｔ群体的ＢＤＩ描述,克服了对ＢＤＩ概念的反直观解释,给出了符合哲学含义的关相似文献

8.

基于MAPE系统的CSCW框架与协同管理Agent的模型设计 总被引：3，自引：2，他引：1

李德敏曹健《计算机工程与应用》1999,35(1):38-40,60

该文针对多Ａｇｅｎｔ处理环境,在［１］［２］基础上给出了一个ＣＳＣＷ的系统框架。为了提高协同工作的效率,在［１０］的基础上提出了协同管理Ａｇｅｎｔ模型。该模型除具有一般Ａｇｅｎｔ的功能外,它还有三个子系统：通讯管理子系统、信息管理子系统和群决策支持系统。并把该框架与模型运用于制造工程领域,提出了一个ＣＡＤ／ＣＡＭ／ＣＡＰＰ一体化的协同工作框架。相似文献

9.

多Agent协同工作环境MACE 总被引：38，自引：0，他引：38

林守勋林宗楷郭玉钗胡斌马先林《计算机学报》1998,21(2):188-192,F003

在ＣＡＤ／ＣＡＭ和ＣＩＭＳ等领域的分布协同计算中,分布人工智能领域的多Ａｇｅｎｔ技术已逐步得到越来越多的应用,本文阐述了ＭＡＣＥ（Ｍｕｌｔｉ－ＡｇｅｎｔＣｏｏｐｅｒａｔｉｖｅＥｎｖｉｒｏｎｍｅｎｔ）多Ａｇｅｎｔ协同工作环境中有关Ａｇｎｅｔ的概念,分类和结构,多Ａｇｅｎｔ系统结构,人与人交互界面,公用语言以及运行模式等问题,最后,以一个简单的机械组合件的交互和自动两种方式修改参数的协同设计为实例,论相似文献

10.

MAPICS对你说

《计算机》2000,(45)

我们是您的合作伙伴ＭＡＰＩＣＳ　ＣＨＩＮＡ　ＬＩＭＩＴＥＤ（美碧氏中国有限公司）,在广州成立第一间驻华代表处之后．上海及其他地区办事处亦随之开始运作。ＭＡＰＩＣＳ　ＣＨＩＮＡ　ＬＩＭＩＴ－ＥＤ的母公司是在是国享有盛名的ＭＡＰＩＣＳ　Ｉｎｃ。她不仅是关国ＮＡＳＤＡＱ（ＮＡＳＤＡＱ：ＭＡＰＸ）上市公司,其软件还是世界上制造业果常用的软件包之一。在制造业软件的开发和研制方面拥有超过２０年的专业经验。目前,ＭＡＰＩＣＳ公司在全球已拥有６０００多名用户,包括拜耳、Ｆｒｅｉｇｈｔｌｉｎｅｒ、通用电气、固特异… 相似文献

11.

Speeding up learning automata based multi agent systems using the concepts of stigmergy and entropy

Behrooz Masoumi M.R. Meybodi 《Expert systems with applications》2011,38(7):8105-8118

Learning automata (LA) were recently shown to be valuable tools for designing Multi-Agent Reinforcement Learning algorithms and are able to control the stochastic games. In this paper, the concepts of stigmergy and entropy are imported into learning automata based multi-agent systems with the purpose of providing a simple framework for interaction and coordination in multi-agent systems and speeding up the learning process. The multi-agent system considered in this paper is designed to find optimal policies in Markov games. We consider several dummy agents that walk around in the states of the environment, make local learning automaton active, and bring information so that the involved learning automaton can update their local state. The entropy of the probability vector for the learning automata of the next state is used to determine reward or penalty for the actions of learning automata. The experimental results have shown that in terms of the speed of reaching the optimal policy, the proposed algorithm has better learning performance than other learning algorithms. 相似文献

12.

强化学习研究综述 总被引：87，自引：2，他引：87

高阳陈世福陆鑫《自动化学报》2004,30(1):86-100

摘要强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.该文首先介绍强化学习的原理和结构;其次构造一个二维分类图,分别在马尔可夫环境和非马尔可夫环境下讨论最优搜索型和经验强化型两类算法;然后结合近年来的研究综述了强化学习技术的核心问题,包括部分感知、函数估计、多agent强化学习,以及偏差技术;最后还简要介绍强化学习的应用情况和未来的发展方向. 相似文献

13.

强化学习算法与应用综述

李茹杨彭慧民李仁刚赵坤《计算机系统应用》2020,29(12):13-25

强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望. 相似文献

14.

A unified analysis of value-function-based reinforcement- learning algorithms 总被引：4，自引：0，他引：4

Szepesvári C Littman ML 《Neural computation》1999,11(8):2017-2059

Reinforcement learning is the problem of generating optimal behavior in a sequential decision-making environment given the opportunity of interacting with it. Many algorithms for solving reinforcement-learning problems work by computing improved estimates of the optimal value function. We extend prior analyses of reinforcement-learning algorithms and present a powerful new theorem that can provide a unified analysis of such value-function-based reinforcement-learning algorithms. The usefulness of the theorem lies in how it allows the convergence of a complex asynchronous reinforcement-learning algorithm to be proved by verifying that a simpler synchronous algorithm converges. We illustrate the application of the theorem by analyzing the convergence of Q-learning, model-based reinforcement learning, Q-learning with multistate updates, Q-learning for Markov games, and risk-sensitive reinforcement learning. 相似文献

15.

Exploring selfish reinforcement learning in repeated games with stochastic rewards

Katja Verbeeck Ann Nowé Johan Parent Karl Tuyls 《Autonomous Agents and Multi-Agent Systems》2007,14(3):239-269

In this paper we introduce a new multi-agent reinforcement learning algorithm, called exploring selfish reinforcement learning (ESRL). ESRL allows agents to reach optimal solutions in repeated non-zero sum games with stochastic rewards, by using coordinated exploration. First, two ESRL algorithms for respectively common interest and conflicting interest games are presented. Both ESRL algorithms are based on the same idea, i.e. an agent explores by temporarily excluding some of the local actions from its private action space, to give the team of agents the opportunity to look for better solutions in a reduced joint action space. In a latter stage these two algorithms are transformed into one generic algorithm which does not assume that the type of the game is known in advance. ESRL is able to find the Pareto optimal solution in common interest games without communication. In conflicting interest games ESRL only needs limited communication to learn a fair periodical policy, resulting in a good overall policy. Important to know is that ESRL agents are independent in the sense that they only use their own action choices and rewards to base their decisions on, that ESRL agents are flexible in learning different solution concepts and they can handle both stochastic, possible delayed rewards and asynchronous action selection. A real-life experiment, i.e. adaptive load-balancing of parallel applications is added. 相似文献

16.

基于深度强化学习的多配送中心车辆路径规划

王万良陈浩立李国庆冷龙龙赵燕伟《控制与决策》2022,37(8):2101-2109

多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解. 相似文献

17.

基于多智能体的融合Sarsa（λ）学习算法

薛丽华殷苌茗李立云胡明辉《计算机工程与应用》2008,44(4):182-183

强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa（λ）学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。相似文献

18.

基于多智能体的融合Sarsa(λ)学习算法 总被引：1，自引：0，他引：1

下载免费PDF全文

薛丽华殷苌茗李立云胡明辉《计算机工程与应用》2008,44(4):182-183,189

强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa(λ)学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。相似文献

19.

一种新的多智能体Q学习算法 总被引：2，自引：0，他引：2

郭锐吴敏彭军彭姣曹卫华《自动化学报》2007,33(4):367-372

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 相似文献

20.

基于后悔值的多Agent冲突博弈强化学习模型 总被引：1，自引：0，他引：1

肖正张世永《软件学报》2008,19(11):2957-2967

对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 相似文献