共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。 相似文献
2.
提出一种融入合同网运行机制的R学习方法,以此方法为核心构造Agent形成具有学习能力的实时调度模型。模型以最小化作业累计平均流动比为主要目标,同时借助对强化学习报酬的设计减小机器负载的不均衡性,实现对调度过程的双重优化;构造实时调度实例投入测试的结果证明了模型的绩效。另外,一个包含强化学习Agent与无学习Agent的混合机器环境被构建并测试其性能,测试结果表明:在Agent之间借助强化学习过程形成了某种隐性的合作,正是这种合作保证了高质量实时调度方案的输出。 相似文献
3.
基于强化学习的多Agent系统 总被引:4,自引:0,他引:4
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个 相似文献
4.
一个基于Agent的答疑系统 总被引:1,自引:0,他引:1
本文首先分析了现有答疑系统及其不足,然后给出了一个基于Agent的答疑系统模型以及其中各Agent部件的设计,最后说明了本文答疑系统的特点。 相似文献
5.
多Agent协作求解是分布式人工智能要研究的基本问题。该文基于管理agent概念提出一个新的协作模型,该模型利用管理Agent对多Agent系统进行全局协作分配,协作申请分级处理,解决了传统协作模型中存在的模型与应用领域有关和只适用于静态环境的问题。 相似文献
6.
基于多Agent的电子商务系统模型研究 总被引:4,自引:0,他引:4
从事电子商务的人员经常面临2个主要问题:如何将网页访问者转换成您的销售线索?如何实现赢利最大化?为此,文中设计了一个基于多Agent的电子商务系统模型,构建了顾客查询Agent、订购Agent、销售Agent和管理Agent,这个多Agent系统将能比较好地解决上述2个问题。 相似文献
7.
基于强化学习的多Agent协作研究 总被引:2,自引:0,他引:2
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制. 相似文献
8.
9.
多Agent学习是近年来受到较多关注的研究方向,以单Agent强化Q-learning算法为基础,提出了一种基于Agent团队的强化学习模,这个模型的最大特点是引入主导Agent作为团队学习的主角,并通过主导Agent的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Q-learning进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效 相似文献
10.
自适应系统所处的环境往往是不确定的,其变化事先难以预测,如何支持这种环境下复杂自适应系统的开发已经成为软件工程领域面临的一项重要挑战.强化学习是机器学习领域中的一个重要分支,强化学习系统能够通过不断试错的方式,学习环境状态到可执行动作的最优对应策略.本文针对自适应系统环境不确定的问题,将Agent技术与强化学习技术相结... 相似文献
11.
This article discusses effective mechanisms that enable a group of robots to autonomously generate, adapt, and enhance team behaviors while improving their individual performance simultaneously. Two promising team learning concepts, namely, cooperative learning and advice‐sharing, are integrated to provide a platform that encompasses a comprehensive approach to team‐performance enhancement. These methods were examined in relation to the performance characteristics of standard single‐robot Q‐learning to ascertain whether they retain viable learning characteristics despite the integration of individual learning into team behaviors. 相似文献
12.
A central issue in the design of cooperative multiagent systems is how to coordinate the behavior of the agents to meet the goals of the designer. Traditionally, this had been accomplished by hand-coding the coordination strategies. However, this task is complex due to the interactions that can take place among agents. Recent work in the area has focused on how strategies can be learned. Yet, many of these systems suffer from convergence, complexity and performance problems. This paper presents a new approach for learning multiagent coordination strategies that addresses these issues. The effectiveness of the technique is demonstrated using a synthetic domain and the predator and prey pursuit problem. 相似文献
13.
Learning Team Strategies: Soccer Case Studies 总被引:1,自引:0,他引:1
We use simulated soccer to study multiagent learning. Each team's players (agents) share action set and policy, but may behave differently due to position-dependent inputs. All agents making up a team are rewarded or punished collectively in case of goals. We conduct simulations with varying team sizes, and compare several learning algorithms: TD-Q learning with linear neural networks (TD-Q), Probabilistic Incremental Program Evolution (PIPE), and a PIPE version that learns by coevolution (CO-PIPE). TD-Q is based on learning evaluation functions (EFs) mapping input/action pairs to expected reward. PIPE and CO-PIPE search policy space directly. They use adaptive probability distributions to synthesize programs that calculate action probabilities from current inputs. Our results show that linear TD-Q encounters several difficulties in learning appropriate shared EFs. PIPE and CO-PIPE, however, do not depend on EFs and find good policies faster and more reliably. This suggests that in some multiagent learning scenarios direct search in policy space can offer advantages over EF-based approaches. 相似文献
14.
15.
16.
基于CSCW的协作学习系统的研究与实现 总被引:3,自引:0,他引:3
计算机辅助协同工作(CSCW) 的出现,反映了人们对计算机功能需求的改变,即希望计算机系统从传统的解决计算问题发展为辅助用户间的交互活动。首次将CSCW 的概念引入协作学习系统的设计之中,提出一种基于CSCW 的协作学习系统的结构模型,同时就CSCW 的若干核心技术———多用户接口、协作机制、并发控制等结合系统的设计与实现进行了研究与探讨。最后给出了一个具体的实现原型:NJU CLS。 相似文献
17.
文章讨论了构建基于语义网的资源型终身学习服务系统的重要性,并提出了资源型终身学习服务系统的系统模型、资源整合模型、资源服务模型、及语义搜索过程模型。资源型终身学习服务系统的构建是一个庞大的系统工程,其中涉及到内容资源的整合与建设、领域本体的构建、教育资源元数据通用规范的建设、学习服务系统的设计与开发等多项重要工作。该文基于中国人民大学网络教育学院承担的2010年国家社科基金研究项目(编号10BTQ009)的初期理论探索成果,今后将在本体构建、资源建设、用户模型建设、系统开发改造等方面开展一系列的实际工作。 相似文献
18.
Efficient Multiagent Policy Optimization Based on Weighted Estimators in Stochastic Cooperative Environments 下载免费PDF全文
Multiagent deep reinforcement learning (MA-DRL) has received increasingly wide attention. Most of the existing MA-DRL algorithms, however, are still inefficient when faced with the non-stationarity due to agents changing behavior consistently in stochastic environments. This paper extends the weighted double estimator to multiagent domains and proposes an MA-DRL framework, named Weighted Double Deep Q-Network (WDDQN). By leveraging the weighted double estimator and the deep neural network, WDDQN can not only reduce the bias effectively but also handle scenarios with raw visual inputs. To achieve efficient cooperation in multiagent domains, we introduce a lenient reward network and scheduled replay strategy. Empirical results show that WDDQN outperforms an existing DRL algorithm (double DQN) and an MA-DRL algorithm (lenient Q-learning) regarding the averaged reward and the convergence speed and is more likely to converge to the Pareto-optimal Nash equilibrium in stochastic cooperative environments. 相似文献
19.