首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。  相似文献   

2.
提出一种融入合同网运行机制的R学习方法,以此方法为核心构造Agent形成具有学习能力的实时调度模型。模型以最小化作业累计平均流动比为主要目标,同时借助对强化学习报酬的设计减小机器负载的不均衡性,实现对调度过程的双重优化;构造实时调度实例投入测试的结果证明了模型的绩效。另外,一个包含强化学习Agent与无学习Agent的混合机器环境被构建并测试其性能,测试结果表明:在Agent之间借助强化学习过程形成了某种隐性的合作,正是这种合作保证了高质量实时调度方案的输出。  相似文献   

3.
基于强化学习的多Agent系统   总被引:4,自引:0,他引:4  
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个  相似文献   

4.
一个基于Agent的答疑系统   总被引:1,自引:0,他引:1  
本文首先分析了现有答疑系统及其不足,然后给出了一个基于Agent的答疑系统模型以及其中各Agent部件的设计,最后说明了本文答疑系统的特点。  相似文献   

5.
多Agent协作求解是分布式人工智能要研究的基本问题。该文基于管理agent概念提出一个新的协作模型,该模型利用管理Agent对多Agent系统进行全局协作分配,协作申请分级处理,解决了传统协作模型中存在的模型与应用领域有关和只适用于静态环境的问题。  相似文献   

6.
基于多Agent的电子商务系统模型研究   总被引:4,自引:0,他引:4  
耿筠  滕国库 《微机发展》2005,15(2):81-83,139
从事电子商务的人员经常面临2个主要问题:如何将网页访问者转换成您的销售线索?如何实现赢利最大化?为此,文中设计了一个基于多Agent的电子商务系统模型,构建了顾客查询Agent、订购Agent、销售Agent和管理Agent,这个多Agent系统将能比较好地解决上述2个问题。  相似文献   

7.
基于强化学习的多Agent协作研究   总被引:2,自引:0,他引:2  
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.  相似文献   

8.
介绍Ontology、Agent及Multi-agent基本概念,阐述了MAS交互和本体在MAS交互中的应用,提出一种基于本体的MAS交互模型图,并详细解释了模型中各组成部分的功能。  相似文献   

9.
一种基于Agent团队的强化学习模型与应用研究   总被引:22,自引:2,他引:20       下载免费PDF全文
多Agent学习是近年来受到较多关注的研究方向,以单Agent强化Q-learning算法为基础,提出了一种基于Agent团队的强化学习模,这个模型的最大特点是引入主导Agent作为团队学习的主角,并通过主导Agent的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Q-learning进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效  相似文献   

10.
自适应系统所处的环境往往是不确定的,其变化事先难以预测,如何支持这种环境下复杂自适应系统的开发已经成为软件工程领域面临的一项重要挑战.强化学习是机器学习领域中的一个重要分支,强化学习系统能够通过不断试错的方式,学习环境状态到可执行动作的最优对应策略.本文针对自适应系统环境不确定的问题,将Agent技术与强化学习技术相结...  相似文献   

11.
This article discusses effective mechanisms that enable a group of robots to autonomously generate, adapt, and enhance team behaviors while improving their individual performance simultaneously. Two promising team learning concepts, namely, cooperative learning and advice‐sharing, are integrated to provide a platform that encompasses a comprehensive approach to team‐performance enhancement. These methods were examined in relation to the performance characteristics of standard single‐robot Q‐learning to ascertain whether they retain viable learning characteristics despite the integration of individual learning into team behaviors.  相似文献   

12.
Ho  F.  Kamel  M. 《Machine Learning》1998,33(2-3):155-177
A central issue in the design of cooperative multiagent systems is how to coordinate the behavior of the agents to meet the goals of the designer. Traditionally, this had been accomplished by hand-coding the coordination strategies. However, this task is complex due to the interactions that can take place among agents. Recent work in the area has focused on how strategies can be learned. Yet, many of these systems suffer from convergence, complexity and performance problems. This paper presents a new approach for learning multiagent coordination strategies that addresses these issues. The effectiveness of the technique is demonstrated using a synthetic domain and the predator and prey pursuit problem.  相似文献   

13.
Learning Team Strategies: Soccer Case Studies   总被引:1,自引:0,他引:1  
We use simulated soccer to study multiagent learning. Each team's players (agents) share action set and policy, but may behave differently due to position-dependent inputs. All agents making up a team are rewarded or punished collectively in case of goals. We conduct simulations with varying team sizes, and compare several learning algorithms: TD-Q learning with linear neural networks (TD-Q), Probabilistic Incremental Program Evolution (PIPE), and a PIPE version that learns by coevolution (CO-PIPE). TD-Q is based on learning evaluation functions (EFs) mapping input/action pairs to expected reward. PIPE and CO-PIPE search policy space directly. They use adaptive probability distributions to synthesize programs that calculate action probabilities from current inputs. Our results show that linear TD-Q encounters several difficulties in learning appropriate shared EFs. PIPE and CO-PIPE, however, do not depend on EFs and find good policies faster and more reliably. This suggests that in some multiagent learning scenarios direct search in policy space can offer advantages over EF-based approaches.  相似文献   

14.
15.
韩伟  韩忠愿 《计算机工程》2007,33(22):42-44,4
Q学习算法要求智能体无限遍历每个状态-动作转换,因此在涉及状态-动作空间非常大的应用问题时,导致收敛速度非常慢。借助多智能体的合作学习,智能体之间基于黑板模型的方法通过开关函数相互协调合作,可以更快地定位那些有效的状态-动作转换,避免了无效的更新,从而以较小的学习代价加快了Q表的收敛速度。  相似文献   

16.
基于CSCW的协作学习系统的研究与实现   总被引:3,自引:0,他引:3  
计算机辅助协同工作(CSCW) 的出现,反映了人们对计算机功能需求的改变,即希望计算机系统从传统的解决计算问题发展为辅助用户间的交互活动。首次将CSCW 的概念引入协作学习系统的设计之中,提出一种基于CSCW 的协作学习系统的结构模型,同时就CSCW 的若干核心技术———多用户接口、协作机制、并发控制等结合系统的设计与实现进行了研究与探讨。最后给出了一个具体的实现原型:NJU CLS。  相似文献   

17.
文章讨论了构建基于语义网的资源型终身学习服务系统的重要性,并提出了资源型终身学习服务系统的系统模型、资源整合模型、资源服务模型、及语义搜索过程模型。资源型终身学习服务系统的构建是一个庞大的系统工程,其中涉及到内容资源的整合与建设、领域本体的构建、教育资源元数据通用规范的建设、学习服务系统的设计与开发等多项重要工作。该文基于中国人民大学网络教育学院承担的2010年国家社科基金研究项目(编号10BTQ009)的初期理论探索成果,今后将在本体构建、资源建设、用户模型建设、系统开发改造等方面开展一系列的实际工作。  相似文献   

18.
Multiagent deep reinforcement learning (MA-DRL) has received increasingly wide attention. Most of the existing MA-DRL algorithms, however, are still inefficient when faced with the non-stationarity due to agents changing behavior consistently in stochastic environments. This paper extends the weighted double estimator to multiagent domains and proposes an MA-DRL framework, named Weighted Double Deep Q-Network (WDDQN). By leveraging the weighted double estimator and the deep neural network, WDDQN can not only reduce the bias effectively but also handle scenarios with raw visual inputs. To achieve efficient cooperation in multiagent domains, we introduce a lenient reward network and scheduled replay strategy. Empirical results show that WDDQN outperforms an existing DRL algorithm (double DQN) and an MA-DRL algorithm (lenient Q-learning) regarding the averaged reward and the convergence speed and is more likely to converge to the Pareto-optimal Nash equilibrium in stochastic cooperative environments.  相似文献   

19.
一种基于类支持度的增量贝叶斯学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
丁厉华  张小刚 《计算机工程》2008,34(22):218-219
介绍增量贝叶斯分类器的原理,提出一种基于类支持度的优化增量贝叶斯分类器学习算法。在增量学习过程的样本选择问题上,算法引入一个类支持度因子λ,根据λ的大小逐次从测试样本集中选择样本加入分类器。实验表明,在训练数据集较小的情况下,该算法比原增量贝叶斯分类算法具有更高的精度,能大幅度减少增量学习样本优选的计算时间。  相似文献   

20.
基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号