排序方式: 共有5条查询结果,搜索用时 0 毫秒
1
2.
3.
强化学习系统及其基于可靠度最优的学习算法 总被引:3,自引:0,他引:3
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念,针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度优准则模型,分别结合随机逼近理论和时间差分理论,提出了基于概率估计的J-学习和无需建增量R-学习。 相似文献
4.
5.
时滞和滤波联合估计问题是自适应系统建模和时滞估计两方面的交叉.
本文针对先时滞后滤波的串联模型,提出基于快速横向滤波器的递推最小二乘算法,并以合成氨生产过程现场数据为例进行模型预测.
仿真结果表明,这种结合时滞跟踪的自适应滤波器适于变时滞低阶系统建模. 相似文献
1