首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   0篇
  国内免费   1篇
自动化技术   1篇
  2023年   1篇
排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
郝禹哲  王振雷 《计算机应用研究》2023,40(6):1692-1696+1701
合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3 (multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,结合注意力机制对各个智能体采取的动作与决策过程约束条件进行了协调。然后利用拉格朗日乘子构造了修正的代价函数。进而为保证算法的收敛性,保证每一个智能体能够满足预先设定的约束条件,设计了不同时间尺度分学习策略:在短时间尺度上执行Actor-Critic网络的梯度下降,在长时间尺度上对拉格朗日参数进行迭代。最后在异质和同质的合作型多智能体环境下进行实验。实验结果表明,与其他算法相比,提出的MACTD3算法始终能够获得最小的惩罚成本;通过数量的扩展性实验表明了MACTD3在不同数量智能体的情况下仍然能够满足约束条件,证明了算法的有效性与扩展性。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号