首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 828 毫秒
1.
机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益.  相似文献   

2.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

3.
基于随机博弈的Agent协同强化学习方法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文针对一类追求系统得益最大化的协作团队的学习问题,基于随机博弈的思想,提出了一种新的多Agent协同强化学习方法。协作团队中的每个Agent通过观察协作相识者的历史行为,依照随机博弈模型预测其行为策略,进而得出最优的联合行为策略。  相似文献   

4.
针对随机需求下供应链产销订购冲突问题,考虑一个制造商和两个零售商组成的两级供应链,构建主从博弈下的多Agent协商模型。制造商作为博弈主方制定批发价,零售商作为从方选择最优订货量和零售价,制造商Agent和零售商Agent自动协商,运用模拟退火算法寻求模型的最优解。通过算例发现合理的让步策略和收益共享契约能够提高供应链系统利润,实现产销双方的互利共赢。验证模拟退火算法求解该模型比遗传算法能够得到更优解。  相似文献   

5.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

6.
集体理性约束的Agent协作强化学习   总被引:1,自引:0,他引:1       下载免费PDF全文
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。  相似文献   

7.
模型自动选择是决策支持系统智能化发展的必然要求。针对目前可行算法较少的现状,提出了一种基于智能Agent的模型自动选择方法。该方法运用BDI Agent中的信念描述所求问题,运用信念愿望匹配规则完成模型类型选择;模型选择Agent再通过合同网协议与模型Agent进行交互选择出模型结构。实验结果表明,该方法能较好的完成模型自动选择任务。  相似文献   

8.
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下与策略相关的值函数学习算法。但由于Agent在学习的过程中,需要记忆全部的值函数,这个记忆容量随着状态空间的增加会变得非常巨大。文章提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。  相似文献   

9.
吴甜甜  王洁 《计算机科学》2020,47(2):201-205
多Agent系统(Multi-Agent System,MAS)是人工智能领域的一个非常活跃的研究方向。在多Agent系统中,由于Agent之间信念的差异,会不可避免地造成行动冲突。Sakama等提出的严格协调方法只适用于各Agent之间有共同信念的情境,当不存在共同信念时,此协调方法无解。针对该问题,文中提出了一种基于可能回答集程序(Possibilistic Answer Set Programming,PASP)的信念协调方法。首先,针对各Agent的不同信念集,基于加权定量的方法计算PASP的回答集相对Agent信念的满足度,以此来弱化某些信念,并且引入缺省决策理论推理得到Agent信念协调的一致解。然后,根据一致解建立一致的协调程序,将其作为Agent共同认同的背景知识库。最后,以dlv求解器为基础实现了多Agent信念协调算法,使Agent之间可以自主完成信念协调。文中以旅游推荐系统为例,说明该算法能够打破严格协调方法的局限,有效解决各Agent之间无共同信念时的协调问题。  相似文献   

10.
研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解.  相似文献   

11.
为解决复杂融合空域内的无人机(unmanned aerial vehicle,UAV)冲突解脱过程中消耗大的问题,提出基于速度障碍法的合作型无人机的最优防相撞策略.首先根据有限时间的速度障碍法进行冲突探测,并推导出解脱条件下冲突双方航向改变量与速度大小改变量满足的关系,再将合作博弈概念用在冲突解脱过程中,利用最优化理论...  相似文献   

12.
博弈理论具有的目标对立性、关系非合作性和策略依存性等特征与网络攻防对抗过程保持一致,将博弈理论应用于网络信息安全已经成为研究热点,但目前已有的研究成果大都采用完全信息博弈模型,与网络攻防实际不符。基于此,为提高信息系统风险评估的准确性,本文构建不完全信息条件下的静态贝叶斯攻防博弈模型,将其应用于网络信息系统安全风险评估,构建相应的信息系统安全风险评估算法。通过仿真实验验证了本文模型和方法的有效性,能够对信息系统安全威胁进行科学、有效的评估。  相似文献   

13.
In this paper, an approach for reducing the graphical model and a genetic algorithm for computing the approximate Nash equilibrium in a static multi-agent game is studied. In order to describe the relationship between strategies of various agents, the concepts of the influence degree and the strategy dependency are presented. Based on these concepts, an approach for reducing a graphical model is given. For discretized mixed strategies, the relationship between the discrete degree and the approximate degree is developed. Based on the regret degree, a genetic algorithm for computing the approximate Nash equilibrium is given. Experimental results indicate the genetic algorithm has high efficiency and few equilibrium errors.  相似文献   

14.
多Agent协作的强化学习模型和算法   总被引:2,自引:0,他引:2  
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。  相似文献   

15.
This paper studies an online iterative algorithm for solving discrete-time multi-agent dynamic graphical games with input constraints. In order to obtain the optimal strategy of each agent, it is necessary to solve a set of coupled Hamilton-Jacobi-Bellman (HJB) equations. It is very difficult to solve HJB equations by the traditional method. The relevant game problem will become more complex if the control input of each agent in the dynamic graphical game is constrained. In this paper, an online iterative algorithm is proposed to find the online solution to dynamic graphical game without the need for drift dynamics of agents. Actually, this algorithm is to find the optimal solution of Bellman equations online. This solution employs a distributed policy iteration process, using only the local information available to each agent. It can be proved that under certain conditions, when each agent updates its own strategy simultaneously, the whole multi-agent system will reach Nash equilibrium. In the process of algorithm implementation, for each agent, two layers of neural networks are used to fit the value function and control strategy, respectively. Finally, a simulation example is given to show the effectiveness of our method.  相似文献   

16.
为对电力市场环境下电力系统供需互动问题更精确地建模,使其更好地与未来电力市场环境下需求侧负荷聚合商之间多变的关系和复杂的通信拓扑结构相匹配,本文将电力系统供需互动的Stackelberg博弈与复杂网络上反映需求侧负荷聚合商互动的演化博弈相结合,搭建考虑市场因素的电力系统供需互动混合博弈模型.并提出混合博弈强化学习算法求解相应的非凸非连续优化问题,该算法以Q学习为载体,通过引入博弈论和图论的思想,把分块协同和演化博弈的方法相结合,充分地利用博弈者之间互动博弈关系所形成的知识矩阵信息,高质量地求解考虑复杂网络上多智能体系统的非凸优化问题.基于复杂网络理论搭建的四类3机-6负荷系统和南方某一线城市电网的仿真结果表明:混合博弈强化学习算法的寻优性能比大多数集中式的智能算法好,且在不同网络下均可以保证较好的寻优结果,具有很强的适应性和稳定性.  相似文献   

17.
In this paper, a multi-agent reinforcement learning method based on action prediction of other agent is proposed. In a multi-agent system, action selection of the learning agent is unavoidably impacted by other agents’ actions. Therefore, joint-state and joint-action are involved in the multi-agent reinforcement learning system. A novel agent action prediction method based on the probabilistic neural network (PNN) is proposed. PNN is used to predict the actions of other agents. Furthermore, the sharing policy mechanism is used to exchange the learning policy of multiple agents, the aim of which is to speed up the learning. Finally, the application of presented method to robot soccer is studied. Through learning, robot players can master the mapping policy from the state information to the action space. Moreover, multiple robots coordination and cooperation are well realized.  相似文献   

18.
Human-Robot Collaboration (HRC) presents an opportunity to improve the efficiency of manufacturing processes. However, the existing task planning approaches for HRC are still limited in many ways, e.g., co-robot encoding must rely on experts’ knowledge and the real-time task scheduling is applicable within small state-action spaces or simplified problem settings. In this paper, the HRC assembly working process is formatted into a novel chessboard setting, in which the selection of chess piece move is used to analogize to the decision making by both humans and robots in the HRC assembly working process. To optimize the completion time, a Markov game model is considered, which takes the task structure and the agent status as the state input and the overall completion time as the reward. Without experts’ knowledge, this game model is capable of seeking for correlated equilibrium policy among agents with convergency in making real-time decisions facing a dynamic environment. To improve the efficiency in finding an optimal policy of the task scheduling, a deep-Q-network (DQN) based multi-agent reinforcement learning (MARL) method is applied and compared with the Nash-Q learning, dynamic programming and the DQN-based single-agent reinforcement learning method. A height-adjustable desk assembly is used as a case study to demonstrate the effectiveness of the proposed algorithm with different number of tasks and agents.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号