首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
引入Agent技术,提出一种基于Multi-Agent的协作式网络学习系统模型:详细阐述了MASCWL的工作流程及模型构建;引入Petri网模型,对学习主体Agent间协作控制过程进行了形式化描述;提出了系统实现具体方案;最后,利用计算机Multi-Agent仿真建模平台Swarm对学习主体Agent的复杂协作行为进行了仿真建模,实验结果显示:MASCWL在一定数量的学习主体协作下呈现一定的优化性能.  相似文献   

2.
应用遗传算法的多机器人协调动作学习   总被引:1,自引:0,他引:1  
本文力图做出的系统是应用遗传算法使多机器人学习可以动作协调而总体实现最多的搬运。多机器人移动的环境采用图表表示,移动的规则是用遗传算法优化制订的,在两预定结点之间的往返次数取为适合度,用计算机构造环境并进行仿真,结果表明多机器人协调作学习时可视情况需要而互相让路。  相似文献   

3.
多智能体协作的两层强化学习实现方法   总被引:3,自引:0,他引:3  
提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好。  相似文献   

4.
基于强化学习的智能机器人避碰方法研究   总被引:9,自引:0,他引:9  
张汝波  周宁  顾国昌  张国印 《机器人》1999,21(3):204-209
本文采用强化学习方法实现了智能机器人的避碰行为学习.文中首先介绍了强化学习 原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器 人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析.  相似文献   

5.
自主微小型移动机器人的协作学习研究是多智能体机器人系统理论的主要研究方向。因为单个微小型移动机器人能力有限,所以机器人之间的协作在某些重要的基础工业和生物医学领域方面显得非常重要。该文介绍了几种用于协作学习的方法并且比较了它们之间的优点和缺点。最后,简要介绍了一些研究工作。  相似文献   

6.
全局游戏策略GGP(General Game Playing)旨在开发一种没有游戏经验支撑下能够精通各类游戏的人工智能。在原有强化学习算法研究的基础上,提出一种基于经验的简化学习方法,通过对游戏状态的筛选和游戏经验的归纳,从而降低决策对经验数量的需求,提高决策效率,并能达到指定胜利、平局或失败的游戏目标。通过在三种不同的游戏规则下与玩家进行游戏比赛实验表明,该学习方法能有效地达到预期结果。  相似文献   

7.
韩伟  鲁霜 《计算机应用与软件》2011,28(11):96-98,107
以电子市场智能定价问题为研究背景,提出基于模糊推理的多智能体强化学习算法(FI-MARL).在马尔科夫博弈学习框架下,将领域知识初始化为一个模糊规则集合,智能体基于模糊规则选择动作,并采用强化学习来强化模糊规则.该方法有效融合应用背景的领域知识,充分利用样本信息并降低学习空间维数,从而增强在线学习性能.在电子市场定价的...  相似文献   

8.
强化学习方法是人工智能领域中比较重要的方法之一,自从其提出以来已经有了很大的发展,并且能用来解决很多的问题。但是在遇到大规模状态空间问题时,使用普通的强化学习方法就会产生“维数灾”现象,所以提出了关系强化学习,把强化学习应用到关系领域可以在一定的程度上解决“维数灾”难题。在此基础上,简单介绍关系强化学习的概念以及相关的算法,以及以后有待解决的问题。  相似文献   

9.
动态网络环境下的多Agent移动合作系统   总被引:3,自引:2,他引:1  
多Agent移动合作系统为分布式系统提供了灵活、高效的解决方案,但针对动态网络环境,当前的一些研究工作还存在局限性,以多Agent移动合作系统模型为基础,考虑到动态环境中Agent知识的不确定性、影响力和Agent间可能客观存在的矛盾,提出了Agent模糊知识表达与交换的思想、理论模型及算法,较好地考虑并解决了Agent的模糊信念合成及矛盾处理等关键问题,通过仿真研究,将所提出的理论与模型应用于解决动态网络拓扑发现问题,结果证明了该模型是可行、高效的。  相似文献   

10.
At AROB5, we proposed a solution to the path planning of a mobile robot. In our approach, we formulated the problem as a discrete optimization problem at each time step. To solve the optimization problem, we used an objective function consisting of a goal term, a smoothness term, and a collision term. While the results of our simulation showed the effectiveness of our approach, the values of the weights in the objective function were not given by any theoretical method. This article presents a theoretical method using reinforcement learning for adjusting the weight parameters. We applied Williams' learning algorithm, episodic REINFORCE, to derive a learning rule for the weight parameters. We verified the learning rule by some experiments. This work was presented, in part, at the Sixth International Symposium on Artificial Life and Robotics, Tokyo, Japan, January 15–17, 2001  相似文献   

11.
基于小生境技术的共享学习在协同设计中的应用   总被引:1,自引:0,他引:1  
根据协同设计的特点,提出一种多Agent协同设计系统框架,以及产品数据模型的表示,构件的产生,搜索及更新。在对共享机制小生境技术的分析的基础上,提出协同设计系统中基于小生境技术的分类算法,以及协同设计系统中多Agent共享学习的方法,并以一个汽车设计为实例描述了协同设计及共享的学习过程。  相似文献   

12.
Multi-agent reinforcement learning technologies are mainly investigated from two perspectives of the concurrence and the game theory. The former chiefly applies to cooperative multi-agent systems, while the latter usually applies to coordinated multi-agent systems. However, there exist such problems as the credit assignment and the multiple Nash equilibriums for agents with them. In this paper, we propose a new multi-agent reinforcement learning model and algorithm LMRL from a layer perspective. LMRL model is composed of an off-line training layer that employs a single agent reinforcement learning technology to acquire stationary strategy knowledge and an online interaction layer that employs a multi-agent reinforcement learning technology and the strategy knowledge that can be revised dynamically to interact with the environment. An agent with LMRL can improve its generalization capability, adaptability and coordination ability. Experiments show that the performance of LMRL can be better than those of a single agent reinforcement learning and Nash-Q.  相似文献   

13.
联系发现是数据挖掘中较新的研究领域。联系发现是一种对海量数据进行挖掘,找出其中潜在模式,抽取有用知识并发现隐藏联系的技术。本文首先综述了联系发现的概念、范围、特点和难点等,详细介绍了联系发现的几种主要方法:无监督的联系发现方法(新颖联系发现)、使用归纳逻辑程序技术挖掘关联数据的联系发现方法、多假设反演推理的联系发现方法、基于相关分析的联系发现方法以及KOJAK组队探测器,讨论了联系发现系统性能评估的方法与联系发现的置信区间度量方法,并简要描述了联系发现的一个具体应用的实例一——证据抽取和联系发现研究计划(EELD),最后探讨了目前联系发现研究中出现的问题及未来发展趋势。  相似文献   

14.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。  相似文献   

15.
任燚  陈宗海 《计算机仿真》2005,22(10):183-186
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响.在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(result reward),并与优先扫除(prioritized sweeping)的强化学习算法结合作为噪声消解策略.然后与基于结果奖赏的Q学习算法(Q-learning)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能.  相似文献   

16.
In this study, an autonomous social robot is living in a laboratory where it can interact with several items (people included). Its goal is to learn by itself the proper behaviors in order to maintain its well-being at as high a quality as possible. Several experiments have been conducted to test the performance of the system.

The Object Q-Learning algorithm has been implemented in the robot as the learning algorithm. This algorithm is a variation of the traditional Q-Learning because it considers a reduced state space and collateral effects. The comparison of the performance of both algorithms is shown in the first part of the experiments. Moreover, two mechanisms intended to reduce the learning session durations have been included: Well-Balanced Exploration and Amplified Reward. Their advantages are justified in the results obtained in the second part of the experiments.

Finally, the behaviors learned by our robot are analyzed. The resulting behaviors have not been preprogrammed. In fact, they have been learned by real interaction in the real world and are related to the motivations of the robot. These are natural behaviors in the sense that they can be easily understood by humans observing the robot.  相似文献   

17.
Reinforcement learning (RL) for solving large and complex problems faces the curse of dimensions problem. To overcome this problem, frameworks based on the temporal abstraction have been presented; each having their advantages and disadvantages. This paper proposes a new method like the strategies introduced in the hierarchical abstract machines (HAMs) to create a high-level controller layer of reinforcement learning which uses options. The proposed framework considers a non-deterministic automata as a controller to make a more effective use of temporally extended actions and state space clustering. This method can be viewed as a bridge between option and HAM frameworks, which tries to suggest a new framework to decrease the disadvantage of both by creating connection structures between them and at the same time takes advantages of them. Experimental results on different test environments show significant efficiency of the proposed method.  相似文献   

18.
多Agent系统中强化学习的研究现状和发展趋势   总被引:6,自引:1,他引:6  
本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Agent系统中强化学习的应用和问题。最后讨论了多Agent系统中应用强化学习所面临的挑战。  相似文献   

19.
本文介绍了分布式人工智能领域中一种多 Agent系统 ( MAS)体系结构 ,在此基础上研究了各个 Agent在招投标过程中关于标价的学习问题 ,并在选标时考虑了多个动态因素 ,使得系统总体任务高效 ,高质量地完成  相似文献   

20.
随机博弈框架下的多agent强化学习方法综述   总被引:4,自引:0,他引:4  
宋梅萍  顾国昌  张国印 《控制与决策》2005,20(10):1081-1090
多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号