首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
  国内免费   4篇
化学工业   1篇
一般工业技术   1篇
自动化技术   4篇
  2014年   1篇
  2012年   1篇
  1999年   3篇
  1998年   1篇
排序方式: 共有6条查询结果,搜索用时 15 毫秒
1
1.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   
2.
Q学习算法在库存控制中的应用   总被引:9,自引:0,他引:9  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习 方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的 有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法 在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型 未知的工程控制问题中的应用潜力.  相似文献   
3.
Q学习算法中网格离散化方法的收敛性分析   总被引:6,自引:1,他引:5  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解。  相似文献   
4.
介绍了白藜芦醇的主要物性数据和具有的多种生物活性和药理作用,叙述了白藜芦醇类似物和化学合成的研究进展,着重评述了其中主要的3种合成方法。白藜芦醇可以广泛应用于医药、食品、保健品等领域,认为开展新型白藜芦醇类似物的结构设计、合成技术研究对于发现高效、稳定性好的新型类似物和降低制备成本具有重要意义。  相似文献   
5.
基于Q学习算法和BP神经网络的倒立摆控制   总被引:37,自引:1,他引:37  
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方 法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控 制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2] 的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果.  相似文献   
6.
城市建设进入了一个快速发展的时期,无论公路还是铁路都受到江河的阻隔,随着科学技术的进步和施工水平的提高,人们开始修建过江河、海湾、海峡的水下隧道。水下隧道因跨越江河和海湾的问题,水下隧道对周围环境的影响较小,解决了桥梁对通航能力的限制等问题,使得大江大河上修建的大型水下隧道工程数量逐日增多。而随着沉管法的设计和施工中的关键技术问题得到逐步解决,已受到越来越多国家的重视,并逐渐发展成为水下大型隧道工程的首选。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号