首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   0篇
  国内免费   1篇
自动化技术   1篇
  1998年   1篇
排序方式: 共有1条查询结果,搜索用时 3 毫秒
1
1.
加强型学习系统是一种与没有约束的,未知的环境相互作用的系统,学习系统的目标在大最大可能地获取累积奖励信号,这个奖励信号在有限,未知的生命周期由系统所处的环境中得到,对于一个加强型学习系统,困难之一在于奖励信号非常稀疏,尤其是对于只有时延信号的系统,已有的加强型学习方法以价值函数的形式贮存奖励信号,例如著名的Q-学习。本文提出了一个基于状态的不生估计模型的方法,这个算法对有利用存贮于价值函数中的奖励  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号