首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
元博弈平衡和多Agent强化学习的MetaQ算法   总被引:1,自引:0,他引:1  
多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.  相似文献   

2.
为了测试和比较各种先进的多Agent合作求解智能算法,给多Agent合作策略提供一个比较与测试的平台。针对多Agent联盟数量是Agent个数指数倍的问题提出了一种对Agent联盟结构图自上而下的搜索算法,该算法可以对联盟结构图进行化简,降低搜索空间大小。在基于Agent合作收益独立性假设的基础上,证明了同构的联盟结构是最优的收益。最后,以机器人足球赛RoboCup为背景给出了仿真实验,表明了SCS算法的效率。  相似文献   

3.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

4.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

5.
基于量子计算的多Agent协作学习算法   总被引:1,自引:0,他引:1  
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论的多Agent协作学习算法。新算法借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅表示行为选择概率,并用量子搜索算法来加速多Agent的学习。相应的仿真实验结果显示新算法的有效性。  相似文献   

6.
多任务联盟形成中的Agent行为策略研究   总被引:2,自引:0,他引:2  
Agent联盟是多Agent系统中一种重要的合作方式,联盟形成是其研究的关键问题.本文提出一种串行多任务联盟形成中的Agent行为策略,首先论证了Agent合作求解多任务的过程是一个Markov决策过程,然后基于Q-学习求解单个Agent的最优行为策略.实例表明该策略在面向多任务的领域中可以快速、有效地串行形成多个任务求解联盟.  相似文献   

7.
针对动态环境下的多Agent路径规划问题,提出了一种改进的蚁群算法与烟花算法相结合的动态路径规划方法。通过自适应信息素强度值及信息素缩减因子来加快算法的迭代速度,并利用烟花算法来解决路径规划过程中的死锁问题,避免陷入局部最优。在多Agent动态避碰过程中,根据动态障碍物与多Agent之间的运行轨迹是否相交制定相应的避碰策略,并利用路径转变函数解决多Agent的正面碰撞问题。仿真实验表明,该方法优于经典蚁群算法,能够有效解决多Agent路径规划中的碰撞问题,从而快速找到最优无碰路径。  相似文献   

8.
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论和蚁群算法的多Agent协作学习算法。新算法首先借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅进行动作探索,加快学习速度。其次,根据蚁群算法,提出“脚印”思想来间接增强Agent之间的交互。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。  相似文献   

9.
Agent技术特别是多Agent系统(MAS,Multi-Agent System)为解决人工智能等领域复杂问题提供了一个新途径,多Agent系统重点研究如何协调系统中的各个Agent的行为使其协同工作。针对多阶段组合投资问题,提出了一个基于多Agent系统的自调节及协同工作的组合投资策略模型。该模型系统中的各个Agent通过通讯共享知识,在求解问题的搜索空间中进行协同搜索,在更短的搜索步长内得到问题的解,极大地提高了系统性能。该模型具有不基于任何股票模型、时间复杂度低以及逼近最优投资策略速度较快等优点,实验证明具有一定的实际意义。  相似文献   

10.
Agent技术特别是多Agent系统(MAS,Multi-Agent System)为解决人工智能等领域复杂问题提供了一个新途径,多Agent系统重点研究如何协调系统中的各个Agent的行为使其协同工作.针对多阶段组合投资问题,提出了一个基于多Agent系统的自调节及协同工作的组合投资策略模型.该模型系统中的各个Agent通过通讯共享知识,在求解问题的搜索空间中进行协同搜索,在更短的搜索步长内得到问题的解,极大地提高了系统性能.该模型具有不基于任何股票模型、时间复杂度低以及逼近最优投资策略速度较快等优点,实验证明具有一定的实际意义.  相似文献   

11.
This paper presents a symmetric cooperation strategy for cooperative relay networks with multiple users. The multi-user symmetric cooperation model and the relay selection algorithm are proposed. Then, the time slot allocation problem is cast into a bargaining problem, and the optimal time slot allocation solution is obtained by Nash bargaining solution (NBS). Moreover, we also consider the implementations of the cooperation strategy, i.e., the grouping and admission control algorithm. Simulation results show that users can obtain larger rates under the symmetric cooperation strategy than the non-cooperative case.  相似文献   

12.
In many practical scenarios, wireless devices are autonomous and thus, may exhibit non-cooperative behaviors due to self-interests. For instance, a wireless cellular device may be programmed to report bogus channel information to gain resource allocation advantages. Such non-cooperative behaviors are highly probable as the device’s software can be modified by the user. In this paper, we first analyze the impact of these rationally selfish behaviors on the performance of packet scheduling algorithms in time-slotted wireless networks. Using a mixed strategy game model, we show that the traditional maximum rate packet scheduling algorithm can cause non-cooperative devices to converge to highly inefficient Nash equilibria, in which the wireless channel resources are significantly wasted. By using a repeated game to enforce cooperation, we further propose a novel game theoretic algorithm that can lead to an efficient equilibrium.  相似文献   

13.
针对认知无线网络中多用户资源分配时需要大量信道和功率策略信息交互,并且占用和耗费了大规模系统资源的问题,通过非合作博弈模型对用户的策略进行了研究,提出一种基于多用户Q学习的联合信道选择和功率控制算法。用户在自学习过程中将采用统一的策略,仅通过观察自己的回报来进行Q学习,并逐渐收敛到最优信道和功率分配的最优集合。仿真结果表明,该算法可以高概率地收敛到纳什均衡,用户通过信道选择得到的整体回报非常接近最大整体回报值。  相似文献   

14.
Self-organizing networks such as wireless ad hoc networks present a number of problems and paradoxes towards trustworthiness and consistency of the network. Lack of cooperation between nodes drastically brings down the throughput of the network. Selfish behavior of the nodes is one of the issues, which deter the trust among them. This paper explores the multiple modes to build trust and proposes an effective, dynamic and distributed framework using evolutionary game theory. Strategic, non-cooperative and evolutionary game theory has been utilized to model the dynamic behavior of selfish nodes in a self-policing ad hoc network. AODV routing assisted by the proposed game model enlightens a cogent scenario, which demonstrates that it can stimulate cooperation among selfish nodes, albeit without negotiations. The proposed model encompasses two distinct modes to learn and predict the behavior of neighbors namely deterministic and random. Deterministic mode is a generic one which helps to analyze the behavior of the network for standard strategic patterns whereas the random strategy profiles are explored using randomized analysis based on genetic algorithm. This paper investigates the simulated results for the two methods and asserts that if nodes use evolved strategies and trust evaluation mechanism, then the model supports in accomplishing the cooperation level to reach the maximum possible.  相似文献   

15.
基于改进蚁群算法的纳什均衡求解   总被引:1,自引:0,他引:1       下载免费PDF全文
在基本蚁群算法寻优机制的基础上,提出一种用于求解有限n人非合作博弈的纳什均衡解的改进蚁群算法。在全局搜索中,引入遗传算法中的交叉和变异操作提高算法的全局搜索能力。在局部搜索中,嵌入动态随机搜索技术使算法加速收敛到最优解,并通过引入控制步长调整随机搜索向量,保证蚁群始终在混合策略空间内。算例测试结果表明,与传统的遗传算法相比,该算法具有更好的计算性能。  相似文献   

16.
为解决P2P电子商务环境中存在的安全问题,针对现有一些信任模型的局限性,提出一种基于无限重复博弈理论的信任模型。通过建立奖惩策略,对节点的不合作行为,依据博弈策略对节点进行惩罚,同时对选择合作策略的节点进行奖励,并根据欺诈行为次数设定不同的惩罚周期。理论分析和仿真实验表明,合作策略会成为节点博弈的帕累托最优策略,该策略模型能有效遏制和惩罚恶意行为,提高节点诚实交易的积极性,从而有效提高网络环境的安全性和稳定性。  相似文献   

17.
无线资源管理对实现资源的有效利用起着至关重要的作用.针对变电站中无线网络资源分配问题,提出了基于非合作博弈的变电站无线网络资源的优化管理算法,解决了全双工系统的无线电资源分配问题.将下行链路与上行链路的联合速率最大化问题建模成为上下行链路信道之间的非合作博弈,提出了基于非合作博弈的迭代算法.该算法有效的实现最佳上行链路与下行链路的资源分配,直到达到纳什均衡.仿真结果表明,该算法实现了快速收敛,与同等资源分配方法相比,可以显著提高全双工的性能.  相似文献   

18.
K.  P. 《Computer Communications》2007,30(18):3721-3735
Trust among nodes in a self-organizing network such as a mobile ad hoc network presents a number of problems and paradoxes. One of the challenging characteristics of wireless and mobile ad hoc networks consists in exploring ways to cope up with selfish behavior of neighbors towards network functions such as routing and forwarding. This paper attempts to deal with such mechanisms and as a result it introduces a distinct model to study the behavior of selfish neighbors using strategic, non-cooperative game theory. Many research works have used Tit-For-Tat strategy for analysis when they deploy game theory to stimulate cooperation. A compliant and an adaptable strategy called Best Neighbor Strategy [BNS] is proposed in this paper for the packet forwarding game in a wireless ad hoc environment. The behavior of nodes is probed varying the proportion of selfishness and also the size of the population while forwarding the packets. The investigations have brought out that the proposed cooperation enforcement policy is scalable, is able to converge faster and is robust against selfishness. BNS achieves evolutionary stability even under the invasion of selfish strategy at different proportions. Further, BNS proves to be a pure evolutionary stable strategy as it evolves to dominate the population from whatever the initial frequency it starts with and it totally out-competes the malign behavior shown by selfish strategy, which means that BNS is immune to invaders. The observations and analysis have shown that the ad hoc paradigm can be modeled significantly using an approach, which has been developed for game theory.  相似文献   

19.
顾国昌  仲宇  张汝波 《机器人》2003,25(4):344-348
在多机器人系统中,评价一个机器人行为的好坏常常依赖于其它机器人的行为,此 时必须采用组合动作以实现多机器人的协作,但采用组合动作的强化学习算法由于学习空间 异常庞大而收敛得极慢.本文提出的新方法通过预测各机器人执行动作的概率来降低学习空 间的维数,并应用于多机器人协作任务之中.实验结果表明,基于预测的加速强化学习算法 可以比原始算法更快地获得多机器人的协作策略.  相似文献   

20.
在资源受限的机会网络中,节点在转发过程中所表现出的自私行为将严重影响网络性能。针对这一问题,建立基于认错机制的“礼尚往来”策略的节点重复博弈模型。节点考虑到将来的利益,迫于对惩罚的恐惧而参与转发。通过该策略,节点协作可以使网络性能达到最优。仿真结果表明,节点间的相互协作增强,在自私节点较多时也能保证较好的网络性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号