首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、...  相似文献   

2.
多南讯  吕强  林辉灿  卫恒 《机器人》2019,41(2):276-288
首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望.  相似文献   

3.
作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。  相似文献   

4.
5.
作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。  相似文献   

6.
深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。  相似文献   

7.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

8.
为了在操作者与机器人之间实现更为稳定的负载运动状态,提出一种基于特征深度学习的机器人协调操作感知控制方法,分析机器人的协调操作原理,根据虚拟阻尼、虚拟惯量与虚拟刚度系数,构建人机协调操作模型,利用特征深度学习对模型内的神经网络进行网络信息的交互拓扑,优化机器人协调操作的感知性能.同时,减少内存占比,对人力交互信息滤波去...  相似文献   

9.
机器人操作技能模型综述   总被引:8,自引:3,他引:5  
秦方博  徐德 《自动化学报》2019,45(8):1401-1418
机器人技能学习是人工智能与机器人学的交叉领域,目的是使机器人通过与环境和用户的交互得到经验数据,基于示教学习或强化学习,从经验数据中自主获取和优化技能,并应用于以后的相关任务中.技能学习使机器人的任务部署更加灵活快捷和用户友好,而且可以让机器人具有自我优化的能力.技能模型是技能学习的基础和前提,决定了技能效果的上限.日益复杂和多样的机器人操作任务,对技能操作模型的设计实现带来了很多挑战.本文给出了技能操作模型的概念与性质,阐述了流程、运动、策略和效果预测四种技能表达模式,并对其典型应用和未来趋势做出了概括.  相似文献   

10.
聊天机器人的应用有助于满足儿童的好奇心与知识学习的欲望,利于学前教育质量的提升。在本次研究中为了提高聊天机器人在学前教育中的应用价值,通过深度强化学习(Deep Reinforcement Learning, DRL)与监督学习(Supervised Learning, SL)进行了聊天机器人对话模型的建立。基于SL的对话模型在训练集和验证集中的成功率均为100%,其损失函数值分别为0.018和0.024。随着训练次数的增加,基于DRL的对话模型的成功率增加至97.2%,平均对话轮数降低为7轮。结果表明,基于监督学习和深度强化学习建立的机器人对话模型具有较好的性能,能够人性化地完成聊天互动。  相似文献   

11.
针对移动机器人在复杂动态变化的环境下导航的局限性,采用了一种将深度学习和强化学习结合起来的深度强化学习方法。研究以在OpenCV平台下搭建的仿真环境的图像作为输入数据,输入至TensorFlow创建的卷积神经网络模型中处理,提取其中的机器人的动作状态信息,结合强化学习的决策能力求出最佳导航策略。仿真实验结果表明:在经过深度强化学习的方法训练后,移动机器人在环境发生了部分场景变化时,依然能够实现随机起点到随机终点的高效准确的导航。  相似文献   

12.
基于深度强化学习的双足机器人斜坡步态控制方法   总被引:1,自引:0,他引:1  
为提高准被动双足机器人斜坡步行稳定性,本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法.通过分析准被动双足机器人的混合动力学模型与稳定行走过程,建立了状态空间、动作空间、episode过程与奖励函数.在利用基于DDPG改进的Ape-X DPG算法持续学习后,准被动双足机器人能在较大斜坡范围内实现稳定行走.仿...  相似文献   

13.
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结.  相似文献   

14.
多Agent深度强化学习综述   总被引:6,自引:4,他引:6  
近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.  相似文献   

15.
为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互(crowd interaction)对值函数网络做了改进,通过行人角度网格(angel pedestrian grid)对行人之间的交互信息进行提取,并通过注意力机制(attention mechanism)提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为(human spatial behavior)设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。  相似文献   

16.
交易策略在金融资产交易中具有十分重要的作用,如何在复杂动态金融市场中自动化选择交易策略是现代金融重要研究方向.强化学习算法通过与实际环境交互作用,寻找最优动态交易策略,最大化获取收益.提出了一个融合了CNN与LSTM的端到端深度强化学习自动化交易算法,CNN模块感知股票动态市场条件以及抽取动态特征,LSTM模块循环学习...  相似文献   

17.
由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。  相似文献   

18.
随着智能电网的不断发展,变电站数量随之增加。针对变电站中巡检任务繁重以及人工巡检可视化水平低的问题,该文提出了一种基于改进深度强化学习的变电站机器人巡检路径规划方法。结合巡检机器人的运动模型,设计深度强化学习的动作和状态空间。将深度强化学习网络与人工势场相结合,重新构造深度强化学习的奖励函数,优化卷积神经网络结构。通过实际变电站场景进行验证,提出的改进深度强化学习算法较传统算法计算时间更短,效率更高,更有利于对变电站巡检机器人的巡检路径进行精准规划,提升变电站的自动化程度水平。  相似文献   

19.
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学...  相似文献   

20.
多智能体深度强化学习研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号