首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。  相似文献   

2.
近年来,强化学习方法得到了广泛的关注,并已在控制领域取得了一定成果.自主水下机器人(AUV)能完成复杂多样的水下任务,是海洋探索开发任务中的关键设备,强化学习技术的发展为AUV的智能化控制提供了新的思路.本文着眼于强化学习与AUV控制的交叉领域,重点介绍了强化学习在镇定控制和跟踪控制等底层控制任务方面的应用.为此,我们...  相似文献   

3.
强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法, 已经在游戏、推荐系统及自然语言处理等任务中得到了应用. 然而, 强化学习算法应用于真实世界中的机器人系统时, 如何保证安全性仍然面临挑战. 近年来, 针对机器人系统的安全强化学习方法研究已经成为热点方向, 获得了机器人和强化学习领域的广泛关注. 本文结合现有的工作, 综述了安全强化学习理论和方法的重要成果和发展趋势, 并重点关注了现有方法在机器人领域的适用性. 本文首先给出了安全强化学习的一般问题描述. 其次, 从方法和性能的角度重点介绍了该领域的最新重要进展, 包括约束策略优化、控制障碍函数、安全过滤器和对抗性博弈训练等方法, 以及安全强化学习方法在地面移动机器人系统、无人飞行器和其他机器人系统中的应用情况. 最后, 对该领域的未来研究方向进行了展望和探讨.  相似文献   

4.
强化学习在机器人足球比赛中的应用   总被引:8,自引:1,他引:8  
机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域 ,它是一个典型的多智能体系统。采用强化学习方法研究了机器人足球比赛中的足球机器人的动作选择问题 ,扩展了单个Agent的强化学习方法 ,提出了基于多Agents的强化学习方法 ,最后给出了实验结果。  相似文献   

5.
文章在简单概述强化学习理论的基础上,对强化学习在实际机器人应用中经常遇到的连续状态-动作空间、信度分配、探索和利用的平衡、不完整信息等关键性问题进行了讨论,给出了一些常用的解决方法,以期为相关的研究和应用提供一个参考。  相似文献   

6.
对强化学习中的探索方案进行了研究,描述了间接探索和直接探索两种方案各自的特点.综合它们的优点,提出了一种集直接探索和间接探索为一体的混合探索方案.该方案在学习的初始阶段,由于对环境的经验知识较少,侧重于直接探索;在获得比较多的经验后,侧重于间接探索,使得行动选择渐渐趋向于最优策略.实验表明该方案比纯粹的间接探索-greedy方案有更高的学习效率.  相似文献   

7.
张晓路  李斌  常健  唐敬阁 《机器人》2019,41(3):334-342
研究了一种强化学习算法,用于水下滑翔蛇形机器人的滑翔运动控制.针对水动力环境难以建模的问题,使用强化学习方法使水下滑翔蛇形机器人自适应复杂的水环境,并自动学习仅通过调节浮力来控制滑翔运动.对此,提出了循环神经网络蒙特卡洛策略梯度算法,改善了由于机器人的状态难以完全观测而导致的算法难以训练的问题,并将水下滑翔蛇形机器人的基本滑翔动作控制问题近似为马尔可夫决策过程,从而得到有效的滑翔控制策略.通过仿真和实验证明了所提出方法的有效性.  相似文献   

8.
强化学习研究综述   总被引:8,自引:2,他引:8  
在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent 系统问题等若干领域的成功应用和未来的发展方向。  相似文献   

9.
现有的机器人避障方法多依赖于预设规则或外部奖励信号,难以适应煤矿井下复杂多变的环境。为实现煤矿井下运输机器人自主高效避障,提出了一种基于内在动机强化学习(IM−RL)算法的机器人自主避障方法。煤矿井下运输机器人通过视觉传感器感知外界环境信息,利用基于好奇心的内在动机取向函数计算判别外界环境属性的内部奖赏值,利用外部动机奖励函数计算其动作属性的外部奖赏值,结合内在动机取向函数的奖励权重和外部动机奖励函数的奖励权重,计算运输机器人执行动作前后状态的综合奖赏值,形成强化学习算法奖励机制,通过深度置信网络对其状态进行训练和学习,激励运输机器人主动探索未知环境,同时利用自身记忆机制存储知识和经验,通过不断学习训练实现自主避障。在静态环境、动态环境和煤矿井下实际环境中分别进行运输机器人自主避障实验,结果表明:基于IM−RL算法的机器人自主避障路径和搜索时间较短,具有较强的泛化性和鲁棒性。  相似文献   

10.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。  相似文献   

11.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。  相似文献   

12.
可重入生产系统的递阶增强型学习调度   总被引:2,自引:0,他引:2  
对平均报酬型马氏决策过程,本文研究了一种递阶增强型学习算法;并将算法应用于一个两台机器组成的闭环可重入生产系统,计算机仿真结果表明,调度结果优于熟知的两种启发式调度策略.  相似文献   

13.
强化学习在移动机器人自主导航中的应用   总被引:1,自引:1,他引:1  
概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。  相似文献   

14.
针对传统导航方法对地图精度依赖和动态复杂场景适应差问题,提出一种基于课程学习的深度强化学习无地图自主导航算法.为了克服智能体稀疏奖励情况下学习困难的问题,借鉴课程学习思想,提出一种基于能力圈课程引导的深度强化学习训练方法.此外,为了更好地利用机器人当前的碰撞信息辅助机器人做动作决策,引入碰撞概率的概念,将机器人当前感知到的障碍物信息以一种高层语义的形式进行表示,并将其作为导航策略输入的一部分编码至机器人当前观测中,以简化观测到动作的映射,进一步降低学习的难度.实验结果表明,所提出的课程引导训练和碰撞概率可令导航策略收敛速度明显加快,习得的导航策略在空间更大的场景成功率到达90%以上,行驶耗时减少53.5%sim73.1%,可为非结构化未知环境下的无人化作业提供可靠导航.  相似文献   

15.
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结.  相似文献   

16.
强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free...  相似文献   

17.
换道作为车辆行驶的常见行为之一;操作不当极易引发交通事故。针对自动驾驶汽车的换道决策问题;提出了一种基于强化学习的DDQN(双深度Q网络)模型;该模型通过离散动作空间;结合驾驶舒适性、效率、安全性和换道惩罚四个方面设计奖励函数;以优化换道决策。为验证换道决策模型的性能;基于SUMO和真实高速公路车辆数据集搭建高速公路场景下的仿真模型。对比实验结果表明;DDQN模型在驾驶舒适性、交通效率、任务成功率及车辆平均行程速度方面均优于传统的DQN(深度Q网络)和Dueling DQN(对决深度Q网络)模型;且换道次数较少。此外;在四种不同交通拥堵场景下的实验结果显示;DDQN模型在不同拥堵情况下均保持了良好的性能;任务成功率均超过75%。研究表明;基于强化学习的DDQN算法能够为自动驾驶汽车提供有效的换道决策支持。  相似文献   

18.
随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考.  相似文献   

19.
针对四足机器人面对腿部损伤无法继续有效自主运作的问题,提出一种基于分层学习的自适应控制模型。该模型结构由上层状态策略控制器(SDC)和下层基础运动控制器(BDC)组成。SDC对机器人腿部及姿态进行决策并选择运动子策略,BDC子运动策略表达该状态下机器人的运动行为。在Unity3D中构建反关节多自由度的四足机器人,训练多种腿部受损状况的BDC子运动策略,BDC成熟后20s周期随机腿部受损并训练SDC。该模型控制流程为SDC监测机器人状态,激活BDC策略,BDC输出期望关节角度,最后由PD控制器进行速度控制。其实现机器人在腿部受损后自我适应继续保持运作。仿真与实验结果表明,该控制模型能在机器人损伤后能自我快速、稳定调整运动策略,并保证运动的连贯性及柔和性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号