排序方式: 共有41条查询结果,搜索用时 31 毫秒
21.
22.
Q学习算法中网格离散化方法的收敛性分析 总被引:6,自引:1,他引:5
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解。 相似文献
23.
24.
一种新的非线性规划神经网络模型 总被引:1,自引:0,他引:1
提出一种新型的求解非线性规划问题的神经网络模型.该模型由变量神经元、Lagrange
乘子神经元和Kuhn-Tucker乘子神经元相互连接构成.通过将Kuhn-Tucker乘子神经元限
制在单边饱和工作方式,使得在处理非线性规划问题中不等式约束时不需要引入松弛变量,避
免了由于引入松弛变量而造成神经元数目的增加,有利于神经网络的硬件实现和提高神经网
络的收敛速度.可以证明,在适当的条件下,文中提出的神经网络模型的状态轨迹收敛到与非
线性规划问题的最优解相对应的平衡点. 相似文献
25.
提出了一种新的求解多指标动态规划问题的算法,它是由多目标静态规划的交互式满意
置换率法[1]推广得到的.通过增加附加状态变量进行数学模型转换,将单指标动态规划问题
转化为静态规划问题,再进行迭代.这样既减少了计算量,又使各指标间的置换关系易于求
得.所提方法在人机交互过程中对决策者的要求不高,对于一类常见的多指标动态规划问题,
可以迅速获得满意的解. 相似文献
26.
本文给出了一种相对于机器人各臂坐标系,计算 Lagrange-Euler 形式的机器人动力学方程快速实时方法。在计算上,这种新方法比文献〔1〕~〔3〕中的方法更有效,计算量更小。对于一个六自由度的机器人,它的计算量至多为893个乘法与719个加法。尽管在理论上这种方法的计算量比 Newton-Euler 方法的计算量(852个乘法与738个加法)约多40个乘法,伹实际程序运行时间比 Newton-Euler 方法短。 相似文献
27.
本文提出对于一类动态规划模型的分时段迭代算法。此方法在计算上是有效的,并且具有较小的存贮量。该方法可以有效地克服多维状态动态决策问题中的维数困难。本文结合两种动态规划模型详细研究了该算法的收敛性质,得到了相应的理论结果。 相似文献
28.
29.
在基于动态规划的强化学习中,利用状态集结方法可以减小状态空间的大小,从而在一定程度上克服了维数灾的困难,同时还可以加快学习速度。但状态集结是一种逼近方法,由此产生的问题是,状态集结后的Q-hat强化学习收敛所得的最优Q值函数与集结前相应的最优Q值函数会有多大的误差。为此提出了基于最小最大逼近强化学习的误差估计。 相似文献
30.
基于Intranet的决策支持系统的研究不仅具有重大的理论价值,而且具有很高的应用价值。该文通过对多A-gent系统与传统决策支持系统的比较和结合,把Agent方法引入到基于Intranet的决策支持系统的研究中,提出了一种新型的决策支持系统实现框架。该框架充分利用了Agent自主运行、主动性、持续性和问题求解能力以及多Agent系统的分布式和合作性等特点,对基于Intranet决策支持系统结构的研究产生了深刻的影响。该文给出了一个基于该框架的原型系统实现,通过仿真可以看出该实现框架非常适合于企业Intranet分布式开放环境。 相似文献