首页 | 本学科首页   官方微博 | 高级检索  
     

一种新颖的多agent强化学习方法
引用本文:周浦城,洪炳殚,黄庆成. 一种新颖的多agent强化学习方法[J]. 电子学报, 2006, 34(8): 1488-1491
作者姓名:周浦城  洪炳殚  黄庆成
作者单位:哈尔滨工业大学计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,黑龙江,哈尔滨,150001
摘    要:提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.

关 键 词:多agent学习  Q-学习  利益分配学习  模块化结构  对手建模
文章编号:0372-2112(2006)08-1488-04
收稿时间:2005-12-01
修稿时间:2005-12-012006-03-15

A Novel Multi-Agent Reinforcement Learning Approach
ZHOU Pu-cheng,HONG Bing-rong,HUANG Qing-cheng. A Novel Multi-Agent Reinforcement Learning Approach[J]. Acta Electronica Sinica, 2006, 34(8): 1488-1491
Authors:ZHOU Pu-cheng  HONG Bing-rong  HUANG Qing-cheng
Affiliation:School of Computer Science and Technology,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China
Abstract:A novel multi-agent reinforcement learning approach is proposed to learn the coordinated behaviors among cooperative agents team. The proposed approach combines advantages of the modular architecture, profit-sharing learning and opponent modeling technique in a single multi-agent framework. Simulation results on the pursuit problem show that the proposed learning approach has faster convergence speed and more optimal policy over conventional modular Q-learning algorithms.
Keywords:multi-agent learning   Q-learning   profit-sharing learning    modular architecture   opponent modeling
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《电子学报》浏览原始摘要信息
点击此处可从《电子学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号