首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Multi-agent systems composed of concurrent re-inforcement learners have attracted increasing atten-tionin recent years . Multiagent reinforcement learn-ing[1]is much harder than the single-agent case . Thehardness mainly comesfromthefact that the environ-ment is not stationary fromthe viewof an agent be-cause of the existence of other learning agents .Based on stochastic games ,a multi-agent rein-forcement learning algorithmfor zero-sumstochasticgames was proposed by Littman[2]andit was extend…  相似文献   

2.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好.  相似文献   

3.
The application of reinforcement learning is widely used by multi-agent systems in recent years. An agent uses a multi-agent system to cooperate with other agents to accomplish the given task, and one agent‘s behavior usually affects the others‘ behaviors. In traditional reinforcement learning, one agent takes the others location, so it is difficult to consider the others‘ behavior, which decreases the learning efficiency. This paper proposes multi-agent reinforcement learning with cooperation based on eligibility traces, i.e. one agent estimates the other agent‘s behavior with the other agent‘s eligibility traces. The results of this simulation prove the validity of the proposed learning method.  相似文献   

4.
A dynamic cooperation model of multi-agent is established by combining reinforcement learning with distributed artificial intelligence(DAI),in which the concept of individual optimization loses its meaning because of the dependence of repayment on each agent itself and the choice of other agents.Utilizing the idea of DAI,the intellectual unit of each robot and the change of task and environment,each agent can make decisions independently and finish various complicated tasks by communication and reciprocation between each other.The method is superior to other reinforcement learning methods commonly used in the multi-agent system.It can improve the convergence velocity of reinforcement learning,decrease requirements of computer memory,and enhance the capability of computing and logical ratiocinating for agent.The result of a simulated robot soccer match proves that the proposed cooperative strategy is valid.  相似文献   

5.
In this paper we describe a new reinforcement learning approach based on different states. When the multiagent is in coordination state,we take all coordinative agents as players and choose the learning approach based on game theory. When the multiagent is in indedependent state,we make each agent use the independent learning. We demonstrate that the proposed method on the pursuit-evasion problem can solve the dimension problems induced by both the state and the action space scale exponentially with the number of agents and no convergence problems,and we compare it with other related multiagent learning methods. Simulation experiment results show the feasibility of the algorithm.  相似文献   

6.
为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力.  相似文献   

7.
基于Q-学习的进化博弈决策模型   总被引:1,自引:0,他引:1  
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.  相似文献   

8.
针对基于委托权益证明(Delegated Proof-of-Stake, DPoS) 共识算法的区块链赋能车联网系统中区块验证的安全性与可靠性问题, 矿工通过引入轻节点(如智能手机等边缘节点)共同参与区块验证,提高区块验证的安全性和可靠性。为了激励矿工主动引入轻节点, 采用了斯坦伯格(Stackelberg)博弈模型对区块链用户与矿工进行建模, 实现区块链用户的效用和矿工的个人利润最大化。作为博弈主方的区块链用户设定最优的区块验证的交易费, 而作为博弈从方的矿工决定最优的招募验证者(即轻节点)的数量。为了找到所设计Stackelberg博弈的纳什均衡, 设计了一种基于多智能体强化学习算法来搜索接近最优的策略。最后对本文方案进行验证, 结果表明该方案既能实现区块链用户和矿工效益最大化, 也能保证区块验证的安全性与可靠性。  相似文献   

9.
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。  相似文献   

10.
Cooperative multi-agent reinforcement learning (MARL) is an important topic in the field of artificial intelligence,in which distributed constraint optimization (DCOP) algorithms have been widely used to coordinate the actions of multiple agents.However,dense communication among agents affects the practicability of DCOP algorithms.In this paper,we propose a novel DCOP algorithm dealing with the previous DCOP algorithms' communication problem by reducing constraints.The contributions of this paper are primarily threefold:① It is proved that removing constraints can effectively reduce the communication burden of DCOP algorithms.② An criterion is provided to identify insignificant constraints whose elimination doesn't have a great impact on the performance of the whole system.③ A constraint-reduced DCOP algorithm is proposed by adopting a variant of spectral clustering algorithm to detect and eliminate the insignificant constraints.Our algorithm reduces the communication burdern of the benchmark DCOP algorithm while keeping its overall performance unaffected.The performance of constraint-reduced DCOP algorithm is evaluated on four configurations of cooperative sensor networks.The effectiveness of communication reduction is also verified by comparisons between the constraint-reduced DCOP and the benchmark DCOP.  相似文献   

11.
针对社交网络舆情动力学的增强一致性问题,提出了一种基于多智能体强化学习的智能感知模型(Consensus Opinion Enhancement with Intelligent Perception, COEIP) 。在舆情动力学场景下的马尔科夫决策过程中,首先通过双向循环神经网络设计了智能体的决策模型以解决智能体不定长感知的问题。然后通过差分奖励的思想针对收敛效率、连通度和通信代价三类目标,设计了有效的奖励函数。最后为优化COEIP模型,设计了基于策略梯度的多智能体探索与更新算法,让智能体在彼此交互过程中,通过奖励值自适应学习具备多目标权衡能力的邻域选择策略。大量仿真验证了COEIP在社交网络舆情动力学场景下可以有效调和智能体间的矛盾,降低系统稳定时的簇数,进而增强系统的舆情一致性。本模型为大规模社交网络下提高人群意见的统一性提供了新的解决方案,具有重要的理论指导意义。  相似文献   

12.
移动边缘计算(MEC)中的分布式基站部署、有限的服务器资源和动态变化的终端用户使得计算卸载方案的设计极具挑战。鉴于深度强化学习在处理动态复杂问题方面的优势,设计了最优的计算卸载和资源分配策略,目的是最小化系统能耗。首先考虑了云边端协同的网络框架;然后将联合计算卸载和资源分配问题定义为一个马尔可夫决策过程,提出一种基于多智能体深度确定性策略梯度的学习算法,以最小化系统能耗。仿真结果表明,该算法在降低系统能耗方面的表现明显优于深度确定性策略梯度算法和全部卸载策略。  相似文献   

13.
提出了一种新的求解函数优化的算法.借鉴社会协作机制,定义可信任度表示智能体的历史活动信息,控制智能体间的相互作用; 引入“熟人关系网”模型构建和更新智能体的局部环境,利用多智能体之间的协作特性来加快算法收敛速度; 并构造了非一致变异算子保证智能体种群的多样性.仿真实验结果表明,与性能优越的多智能体遗传算法相比,该算法能以更少的函数评价次数找到精度更高的最优解.  相似文献   

14.
一种有限时段Markov决策过程的强化学习算法   总被引:4,自引:0,他引:4  
研究有限时段非平稳的Markov决策过程的强化学习算法。通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解。在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验。  相似文献   

15.
小组学习是远程教育的一种学习组织形式,小组成员通过协作共同完成学习任务.本文结合agent与多agent技术,提出以BDI模型为基础的多agent虚拟小组学习模型,在小组学习模型中包括四种智能agent:学生agent、教师agent、分组agent,虚拟学习伙伴agent;其中,在虚拟学习伙伴agent的支持下可实现虚拟小组学习中的协作过程.在Jadex平台上,设计和实现了面向合作的虚拟小组学习系统,以支持学生在远程教学系统中的虚拟合作学习,提高在线学习质量.  相似文献   

16.
强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。  相似文献   

17.
在多智能体仿真平台上应用强化学习算法对出行者活动-出行的时间规划与地点选择进行了仿真.由于在模型中引入了道路拥挤程度的实时变化参数,环境能随各智能体的决策动态变化,体现出多个智能体处于相同环境时决策的相互影响与个体和环境的交互作用.仿真结果表明,基于多智能体交互作用方法得出的出行者个体活动模式,群体交通流量分布与弹性活动地点选择均与实际调查结果相符,二者在交通流量峰值的偏差小于5%,在弹性活动地点选择分布的相关度大于90%。  相似文献   

18.
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network, WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.  相似文献   

19.
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%.  相似文献   

20.
传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号