基于后悔值的多Agent冲突博弈强化学习模型 |
| |
作者姓名: | 肖正 张世永 |
| |
作者单位: | 复旦大学,计算机与信息技术系,上海,200433;复旦大学,计算机与信息技术系,上海,200433 |
| |
摘 要: | 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定.
|
关 键 词: | Markov对策 强化学习 冲突博弈 冲突消解 |
收稿时间: | 2007-06-28 |
修稿时间: | 2007-08-24 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《软件学报》浏览原始摘要信息 |
|
点击此处可从《软件学报》下载免费的PDF全文 |
|