首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   6篇
自动化技术   6篇
  2025年   2篇
  2022年   1篇
  2017年   1篇
  2016年   2篇
排序方式: 共有6条查询结果,搜索用时 0 毫秒
1
1.
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.  相似文献   
2.
深度强化学习进展: 从AlphaGo到AlphaGo Zero   总被引:1,自引:0,他引:1       下载免费PDF全文
2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.  相似文献   
3.
格斗游戏作为实时双人零和对抗博弈的代表性问题,具有实时对抗和快速响应的重要研究特性.相应针对性方法的提出有效反映了游戏人工智能领域的重要研究进展及发展方向.本文以格斗游戏人工智能竞赛作为研究背景,将智能决策方法分为启发式规则型、统计前向规划型与深度强化学习型三大类型,介绍相应的智能决策方法在实时格斗游戏中的研究进展.为分析格斗游戏智能决策方法的表现性能,本文提出了胜率、剩余血量、执行速率、优势性和伤害性的5个性能因子,系统分析智能决策方法的性能优势及不足.最后,对未来的在格斗游戏中研究发展趋势进行展望.  相似文献   
4.
深度强化学习综述: 兼论计算机围棋的发展   总被引:2,自引:0,他引:2       下载免费PDF全文
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋\"初弈号–Alpha Go\",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考.  相似文献   
5.
双人游戏在游戏人工智能领域是一个基本且重要的问题, 其中一对一零和格斗游戏是最为典型的双人游戏之一. 本文基于深度强化学习对格斗游戏博弈对抗策略进行研究. 首先建模格斗游戏环境, 设计可用于格斗游戏决策的状态、动作以及奖赏函数, 并将阶段策略梯度算法应用于对抗策略的学习. 为了尽可能学到纳什均衡策略实现战胜任意对手的目标, 本文设计了基于历年参赛的智能体构造对手池用于智能体训练, 并探索对手选择机制对于训练过程的影响. 最后在固定对手池的基础上, 设计了自增长对手池算法, 以提升对手策略的完备性和训练智能体的鲁棒性. 为了提高环境采样速度, 本文从传统并行框架出发, 设计了可用于双人游戏的多服务器分布式并行采样框架. 通过实验对比发现, 基于自增长对手池方法所学的智能体能以96.6%的胜率击败固定对手池中的智能体, 并且在与3个仅用于测试的智能体对战时, 也表现出了72.2%的胜率.  相似文献   
6.
为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率, 提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework, TSAR). 具体来说, TSAR提出一种基于Transformer的融合状态−动作−奖赏信息的序列预测任务. 该预测任务采用随机掩码技术对序列数据进行预处理, 通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息, 同时学习状态与动作表征. 为进一步强化状态和动作表征与强化学习(Reinforcement learning, RL)策略的相关性, TSAR引入动作预测学习和奖赏预测学习作为附加的学习约束以指导状态和动作表征学习. TSAR同时将状态表征和动作表征显式地纳入到强化学习策略的优化中, 显著提高了表征对策略学习的促进作用. 实验结果表明, 在DMControl的9个具有挑战性的困难环境中, TSAR的性能和样本效率超越了现有最先进的方法.  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号