首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于深度强化学习的双足机器人斜坡步态控制方法   总被引:1,自引:0,他引:1  
为提高准被动双足机器人斜坡步行稳定性,本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法.通过分析准被动双足机器人的混合动力学模型与稳定行走过程,建立了状态空间、动作空间、episode过程与奖励函数.在利用基于DDPG改进的Ape-X DPG算法持续学习后,准被动双足机器人能在较大斜坡范围内实现稳定行走.仿...  相似文献   

2.
双足机器人步态控制研究方法综述   总被引:17,自引:0,他引:17  
概括地介绍了双足机器人步态控制领域内的主要研究思路.详细阐述了基于双足动力学特征的3种建模方法,包括倒立摆模型、被动步态模型、质量弹簧模型的特点.另外讨论了两种常用的约束条件(稳定判据与能量约束)和3种智能控制方法(神经元理论、模糊逻辑与遗传算法)在双足机器人步态控制中的研究情况.  相似文献   

3.
顾娟 《信息与电脑》2023,(22):35-37
研究了基于强化学习算法的电气系统的智能控制与优化,深入探讨了强化学习的基础,包括深度强化学习方法,并将其应用于电气系统建模和问题定义,并通过强化学习求解最优目标函数的解。通过实验,验证了该方法的有效性,为电气系统的性能改进提供了新的途径。  相似文献   

4.
多机器人动态编队的强化学习算法研究   总被引:8,自引:0,他引:8  
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性.  相似文献   

5.
平面双足机器人虚拟斜坡行走步态生成算法研究   总被引:1,自引:0,他引:1  
在平面双足机器人上应用虚拟斜坡行走方法设计了具有4个参数的步态生成算法.根据虚拟斜坡行走成立的基本条件研究了步态参数之间的关系,最终将独立参数减少到3个.步态参数具有明确的物理意义,可以实时地、便捷地调节行走速度.在平面机器人Stepper上采用所提出的步态生成算法,实现了1.243.88腿长秒的连续速度切换.  相似文献   

6.
为了完成非结构化环境中的机器人轴孔装配任务,提出了一种融入模糊奖励机制的深度确定性策略梯度(DDPG)变参数导纳控制算法,来提升未知环境下的装配效率。建立了轴孔装配接触状态力学模型,并开展轴孔装配机理研究,进而指导机器人装配策略的制定。基于导纳控制器实现柔顺轴孔装配,采用DDPG算法在线辨识控制器的最优参数,并在奖励函数中引入模糊规则,避免陷入局部最优装配策略,提高装配操作质量。在5种不同直径的孔上进行装配实验,并与定参数导纳模型装配效果进行比较。实验结果表明,本文算法明显优于固定参数模型,并在算法收敛后10步内可完成装配操作,有望满足非结构环境自主操作需求。  相似文献   

7.
基于神经网络的机器人智能控制   总被引:1,自引:0,他引:1  
本文综述了智能控制与机器人控制的特点.并在智能控制的框架下,重点论述了神经网络控制在机器人控制中的应用及基于神经网络的机器人各种控制方法,同时指出今后的研究方向,为神经网络控制乃至智能控制在机器人控制中的应用提供了参考.  相似文献   

8.
欠驱动双足机器人在行走中为保持自身的平衡, 双脚需要不间断运动. 但在仅有特定立足点的离散地形上很难实现调整后的落脚点, 从而导致欠驱动双足机器人在复杂环境中的适应能力下降. 提出了基于虚拟约束(Virtual constraint, VC)的变步长调节与控制方法, 根据欠驱动双足机器人当前状态与参考落脚点设计了非时变尺度缩放因子, 能够实时重构适应当前环境的步态轨迹; 同时构建了全身动力学模型, 采用反馈线性化的模型预测控制 (Model predictive control, MPC) 滚动优化产生力矩控制量, 实现准确的轨迹跟踪控制. 最终进行了欠驱动双足机器人的随机离散地形稳定行走的仿真实验, 验证了所提方法的有效性与鲁棒性.  相似文献   

9.
作为自动化和智能化时代的代表,机器人技术的发展成为智能控制领域研究的焦点,各种基于机器人的智能控制技术应运而生,机器人被越来越多地应用于实现与环境之间的复杂多接触交互任务.本文以机器人复杂多接触交互任务为核心问题展开讨论,结合基于强化学习的机器人智能体训练相关研究,对基于强化学习方法实现机器人多接触交互任务展开综述.概述了强化学习在机器人多接触任务研究中的代表性研究,当前研究中存在的问题以及改进多接触交互任务实验效果的优化方法,结合当前研究成果和各优化方法特点对未来机器人多接触交互任务的智能控制方法进行了展望.  相似文献   

10.
针对双足机器人在非平整地面行走时容易失去运动稳定性的问题,提出一种基于一种基于价值的深度强化学习算法DQN(Deep Q-Network)的步态控制方法。首先通过机器人步态规划得到针对平整地面环境的离线步态,然后将双足机器人视为一个智能体,建立机器人环境空间、状态空间、动作空间及奖惩机制,该过程与传统控制方法相比无需复杂的动力学建模过程,最后经过多回合训练使双足机器人学会在不平整地面进行姿态调整,保证行走稳定性。在V-Rep仿真环境中进行了算法验证,双足机器人在非平整地面行走过程中,通过DQN步态调整学习算法,姿态角度波动范围在3°以内,结果表明双足机器人行走稳定性得到明显改善,实现了机器人的姿态调整行为学习,证明了该方法的有效性。  相似文献   

11.
任燚  陈宗海 《控制与决策》2006,21(4):430-434
多机器人系统中,随着机器人数目的增加.系统中的冲突呈指数级增加.甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务.以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突.避免死锁.提高系统整体性能.  相似文献   

12.
In this work, we combined the model based reinforcement learning (MBRL) and model free reinforcement learning (MFRL) to stabilize a biped robot (NAO robot) on a rotating platform, where the angular velocity of the platform is unknown for the proposed learning algorithm and treated as the external disturbance. Nonparametric Gaussian processes normally require a large number of training data points to deal with the discontinuity of the estimated model. Although some improved method such as probabilistic inference for learning control (PILCO) does not require an explicit global model as the actions are obtained by directly searching the policy space, the overfitting and lack of model complexity may still result in a large deviation between the prediction and the real system. Besides, none of these approaches consider the data error and measurement noise during the training process and test process, respectively. We propose a hierarchical Gaussian processes (GP) models, containing two layers of independent GPs, where the physically continuous probability transition model of the robot is obtained. Due to the physically continuous estimation, the algorithm overcomes the overfitting problem with a guaranteed model complexity, and the number of training data is also reduced. The policy for any given initial state is generated automatically by minimizing the expected cost according to the predefined cost function and the obtained probability distribution of the state. Furthermore, a novel Q(λ) based MFRL method scheme is employed to improve the policy. Simulation results show that the proposed RL algorithm is able to balance NAO robot on a rotating platform, and it is capable of adapting to the platform with varying angular velocity.   相似文献   

13.
叶婉秋 《电脑学习》2010,(2):112-114
采用结合智能强化学习和遗传算法来求解车间作业调度问题。  相似文献   

14.
Conventional robot control schemes are basically model-based methods. However, exact modeling of robot dynamics poses considerable problems and faces various uncertainties in task execution. This paper proposes a reinforcement learning control approach for overcoming such drawbacks. An artificial neural network (ANN) serves as the learning structure, and an applied stochastic real-valued (SRV) unit as the learning method. Initially, force tracking control of a two-link robot arm is simulated to verify the control design. The simulation results confirm that even without information related to the robot dynamic model and environment states, operation rules for simultaneous controlling force and velocity are achievable by repetitive exploration. Hitherto, however, an acceptable performance has demanded many learning iterations and the learning speed proved too slow for practical applications. The approach herein, therefore, improves the tracking performance by combining a conventional controller with a reinforcement learning strategy. Experimental results demonstrate improved trajectory tracking performance of a two-link direct-drive robot manipulator using the proposed method.  相似文献   

15.
软件业务流程需要较高的灵活性和适应性。目前,众多的方法集中在流程建模阶段,通过一些方法提高流程的灵活性,却忽略了流程的运行阶段。由于外界环境的变化具有动态性,在建模阶段不易对其描述。由于外界环境的变化能够在运行阶段体现出来,分析流程的运行阶段是必要的。以流程中的约束为研究内容,通过对流程运行阶段的数据进行分析,提出一种基于强化学习的柔性约束模型,以提高流程的适应性。同时,将该算法应用于一类以用户为中心的复杂信息系统,实例分析表明算法是实用和有效的。  相似文献   

16.
基于T-S模糊再励学习的稳定双足步态生成算法   总被引:2,自引:0,他引:2  
胡凌云  孙增圻 《机器人》2004,26(5):461-466
提出了一种基于T S模糊再励学习的稳定双足步态生成算法 .将再励学习引入T S模糊神经网学习增益参数 ,从而采用较少的模糊规则充分逼近了由ZMP曲线到髋关节轨迹的非线性变化关系 ,并将连续空间的多变量变化转换为一维独立动作增益的并行搜索 .仿真结果和双足机器人Luna的实验数据都验证了算法的可行性 .  相似文献   

17.
一种基于强化学习的控制算法研究   总被引:2,自引:0,他引:2  
该文在阐述了强化学习的基本机制的基础上,根据复杂工业过程的非线性、多变量、大时延、强耦合的特点,提出了一种将基于案例的学习和强化学习相结合的控制算法,并对重油分馏塔进行了控制效果的仿真实验,控制结果显示了算法能够很好地满足控制任务。  相似文献   

18.
陈佳盼  郑敏华 《机器人》2022,44(2):236-256
通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号