排序方式: 共有4条查询结果,搜索用时 15 毫秒
1
1.
2.
3.
针对基于强化学习的干扰决策方法存在着收敛速度过慢的问题,在Dyna-Q 算法的基础上提出一种规划
步数自适应的Dyna-Q 干扰决策算法。在保证干扰策略有效性的前提下,提升强化学习算法的收敛速度,使算法能
以更快的速度学习到最优干扰策略。实验与仿真结果表明:该算法能实现多功能雷达干扰的实时有效,也可扩展到
其他强化学习应用领域,具有一定借鉴价值。 相似文献
4.
1