排序方式: 共有41条查询结果,搜索用时 31 毫秒
11.
本文给出了一种求解一类非线性大系统递阶优化问题的神经网络模型,克服了非线性大系统优化中的对偶间隙与不可分性问题,并且该神经网络具有全集成化的特点,易于硬件实现,其协调网络和局部优化网络同步工作,具有很高的求解效率,适宜于系统实时优化应用。 相似文献
12.
通过将模拟退火算法与非线性规划神经网络适当结合,本文提出一种求解有约束全局优化问题的新型混合方法.为了使该方法尽可能保持一般模拟退火算法通用性强的优点,在每一次迭代中不是采用非线性规划神经网络直接求原问题的局部最优解,而是通过求解一个辅助优化问题得到原问题的可行解.数值计算结果表明,与使用罚函数方法处理约束的模拟退火算法相比,本文提出的混合方法不仅可靠性高,而且可以显著地提高计算效率. 相似文献
13.
14.
平均报酬模型的多步强化学习算法 总被引:3,自引:0,他引:3
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。 相似文献
15.
16.
针对SIMD和MIMD结构的并行机提出多目标动态规划时段轮换并行算法,多目标动
态规划的时段轮换迭代算法,将全过程优化问题转化成子过程优化问题,然后在子过程非劣解
集中寻找全过程非劣解.这样,将多目标动态规划内存不足的问题转化成时间问题,然后利用
并行机超高速运算的优势来有效地解决内存不足问题.通过时间复杂性、加速比分析及实例.
说明了算法的有效性及优越性. 相似文献
17.
美国自动控制学界有两个规模较大的学术年会,一叫联合自动控制会议(JACC),另一叫决策与控制会议(CDC)。前者是由美国AIAA、AIChE、ASME、IEEE等学会轮流主办的,后者则由美国IEEE的控制系统学会和SIAM联合主办。通常,此两会议的论文报告人和参加者并不仅限于美国国内的学者,也包括不少其他各国的学者。最近一些年内,由于种种原因,JACC的水平有所下降,会议呈现不景气现象。因而自1982年起,JACC将由ACC(美国控制会议)取代,并由美国自动控制协会(AACC)主办。从1982年ACC的分会专题的内容看,该会仍象 相似文献
18.
Q学习算法在库存控制中的应用 总被引:9,自引:0,他引:9
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习
方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的
有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法
在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型
未知的工程控制问题中的应用潜力. 相似文献
19.
基于Web的决策支持系统界面开发的一种面向对象框架 总被引:1,自引:0,他引:1
随着Internet/Intranet在现代企业中的广泛应用,基于Internet/Intranet的决策支持系统已成为一个亟待研究的新领域。许多学者已经对如何把面向对象的编程思想运用到模型管理系统和数据库管理系统中作了大量的研究,但对于界面开发方面的研究还很少。提出了针对基于Web的决策支持系统界面开发的一种面向对象的框架。与传统的方法(如HTML/CGI)相比,这个框架具有鲁棒性、可重用性、可扩展性等优点。最后给出了仿真实例。 相似文献
20.
基于Q学习算法和BP神经网络的倒立摆控制 总被引:37,自引:1,他引:37
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方
法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控
制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]
的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果. 相似文献