期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蒋国飞吴沧浦《自动化学报》1999,25(2):1

Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献

2.

Q学习算法在库存控制中的应用 总被引：9，自引：0，他引：9

蒋国飞吴沧浦《自动化学报》1999,25(2):236-241

Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献

3.

Q学习算法中网格离散化方法的收敛性分析 总被引：6，自引：1，他引：5

蒋国飞高慧琪吴沧浦《控制理论与应用》1999,16(2):194-198

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Ｑ学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Ｌｉｐｓｃｈｉｔｚ连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Ｑ学习算法求得的最优解依概率１收敛于原连续问题的最优解。相似文献

4.

白藜芦醇类似物及其合成研究进展

高鸿杰昊靓蒋国飞冯晓亮《化工生产与技术》2014,21(5):33-37,8

介绍了白藜芦醇的主要物性数据和具有的多种生物活性和药理作用,叙述了白藜芦醇类似物和化学合成的研究进展,着重评述了其中主要的3种合成方法。白藜芦醇可以广泛应用于医药、食品、保健品等领域,认为开展新型白藜芦醇类似物的结构设计、合成技术研究对于发现高效、稳定性好的新型类似物和降低制备成本具有重要意义。相似文献

5.

基于Q学习算法和BP神经网络的倒立摆控制 总被引：37，自引：1，他引：37

蒋国飞吴沧浦《自动化学报》1998,24(5):662-666

Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2] 的AHC(Adaptive Heuristic Critic)等方法相比,具有更好的学习效果. 相似文献

6.

海底沉管隧道沉降问题的分析

金塑蒋国飞《中国科技博览》2012,(24):80-80

城市建设进入了一个快速发展的时期，无论公路还是铁路都受到江河的阻隔，随着科学技术的进步和施工水平的提高，人们开始修建过江河、海湾、海峡的水下隧道。水下隧道因跨越江河和海湾的问题，水下隧道对周围环境的影响较小，解决了桥梁对通航能力的限制等问题，使得大江大河上修建的大型水下隧道工程数量逐日增多。而随着沉管法的设计和施工中的关键技术问题得到逐步解决，已受到越来越多国家的重视，并逐渐发展成为水下大型隧道工程的首选。相似文献