排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
2.
在多智能体仿真中使用行为树进行决策具有直观、易扩展等优点,但行为树的设计过程过于复杂,人工调试时效率低下.引入Q-Learning来实现行为树的自动设计.为解决传统Q-Learning的收敛速度慢的问题,将模拟退火算法中的Me-tropolis准则应用到动作选择策略中,随着学习过程自适应改变次优动作的选择概率以及将动态规划思想应用到Q值更新策略.实验结果证明,基于改进的多步Q-Learning行为树的智能体决策模型具有更快的收敛速度,并且能够实现行为树的自动设计和优化. 相似文献
1