首页 | 本学科首页   官方微博 | 高级检索  
     

多代理最优响应Q学习及收敛性证明
引用本文:张化祥 黄上腾. 多代理最优响应Q学习及收敛性证明[J]. 计算机科学, 2004, 31(4): 96-98
作者姓名:张化祥 黄上腾
作者单位:上海交通大学计算机科学与工程系,上海,200030;上海交通大学计算机科学与工程系,上海,200030
摘    要:在分析了多代理强化学习的基础上,提出了一种基于对手策略假设的代理最优响应强化学习规则,并证明了当对手策略满足一定条件时,基于该学习规则的Q值收敛。实验结果与理论证明相一致。

关 键 词:强化学习  Markov对策  收敛

Multiagent Optimal Response Q-learning and its Convergence
ZHANG Hua-Xiang HUANG Shang-Teng. Multiagent Optimal Response Q-learning and its Convergence[J]. Computer Science, 2004, 31(4): 96-98
Authors:ZHANG Hua-Xiang HUANG Shang-Teng
Abstract:Based on analysis of multiagent reinforcement learning, an agent optimal response learning rule is proposed provided the assumptions of opponents' policy. Q values have been proved to be convergent if opponents' policy satisfies certain restrictions, and experimental results of grid games are consistent with the convergence proof.
Keywords:Reinforcement learning   Markov games   Convergence  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号