排序方式: 共有41条查询结果,搜索用时 31 毫秒
1.
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法. 相似文献
2.
工业系统工程(Sessions 11.3/A 11.3/B)本专题有两次分组会,共八篇论文,大部分研究工业系统的运行最优化问题。其中,钢铁工业方面三篇,石油工业方面两篇,化学工业一篇,玻璃工业一篇,软件工程一篇。(11.3/A-1)《以多指标动态规划求轧制规程最优化》是中国科学院科学基金资助课 相似文献
3.
根据一类动态规划问题(DFDP)的特点,提出一种能够精确求解此问题的神经网络(LDPNN)。LDPNN具有结构简单、易于硬件实现、求解速度快并且能够求得精确最优解等优点,特别适合于大规模动态规划问题的求解。在复杂系统的实时优化与控制等方面具有广阔的应用前景。 相似文献
4.
本文给出了一种新具有全集成化特征的,求解非线性动态大规模系统递阶控制问题(LOCP)的神经网络模型(LHCNN)该神经网络具有结构简洁,紧凑,高效的特点,适合于动态大规模系统的实时优化控制。 相似文献
5.
本文考虑了一类非线性多滞后大规模系统的稳定性问题,其复杂的大系统可分解成若干个子系统,并且不同状态向量的函数之间相互关联,而且子系统之间又由滞后状态相耦合.本文提出的方法,是用适当地选择每个子系统的状态反馈控制来达到大系统的稳定性,并证明了大系统具有指数稳定性. 相似文献
6.
在基本火力规划模型的基础上,建立了一种大规模火力规划问题的递阶模型,并运用大系统的递阶优化算法和动态规划优化算法,提出了一种新的求解该模型的递阶动态规划算法。该方法层次清晰,降低了计算复杂程度,并且适合并行计算,能迅速找到火力规划问题的最优火力分配方案和最优解。仿真算例表明了该方法的实用性。 相似文献
7.
平均准则问题的即时差分学习算法 总被引:2,自引:0,他引:2
考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学
习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ)
算法及R-学习算法的一种推广. 相似文献
8.
目的由聚合反应过程参数预测热塑弹性体的质量指标.方法利用神经网络技术建立产品的质量指标和聚合反应过程状态变量之间的映射关系,反应过程为万吨级工业生产装置间歇反应釜中的聚合反应.结果以可接受的精度由易测量的反应过程参数推导得出了热塑弹性体的质量指标.结论利用神经网络技术可以构成检测热塑弹性体质量指标的在线软仪表. 相似文献
9.
Q学习算法在库存控制中的应用 总被引:9,自引:0,他引:9
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习
方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的
有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法
在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型
未知的工程控制问题中的应用潜力. 相似文献
10.