期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱圆恒赵冬斌《控制理论与应用》2016,33(12):1603-1613

在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较. 相似文献

2.

实时格斗游戏的智能决策方法

唐振韬梁荣钦朱圆恒赵冬斌《控制理论与应用》2022,39(6):969-985

格斗游戏作为实时双人零和对抗博弈的代表性问题,具有实时对抗和快速响应的重要研究特性.相应针对性方法的提出有效反映了游戏人工智能领域的重要研究进展及发展方向.本文以格斗游戏人工智能竞赛作为研究背景,将智能决策方法分为启发式规则型、统计前向规划型与深度强化学习型三大类型,介绍相应的智能决策方法在实时格斗游戏中的研究进展.为分析格斗游戏智能决策方法的表现性能,本文提出了胜率、剩余血量、执行速率、优势性和伤害性的5个性能因子,系统分析智能决策方法的性能优势及不足.最后,对未来的在格斗游戏中研究发展趋势进行展望. 相似文献

3.

深度强化学习进展: 从AlphaGo到AlphaGo Zero 总被引：1，自引：0，他引：1

赵冬斌唐振韬邵坤朱圆恒《控制理论与应用》2017,34(12):1529-1546

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义. 相似文献

4.

深度强化学习综述: 兼论计算机围棋的发展 总被引：2，自引：0，他引：2

赵冬斌邵坤朱圆恒李栋陈亚冉王海涛刘德荣周彤王成红《控制理论与应用》2016,33(6):701-717

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋"初弈号–Alpha Go",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考. 相似文献