首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于强化学习规则的两轮机器人自平衡控制   总被引:1,自引:0,他引:1  
两轮机器人是一个典型的不稳定,非线性,强耦合的自平衡系统,在两轮机器人系统模型未知和没有先验经验的条件下,将强化学习算法和模糊神经网络有效结合,保证了函数逼近的快速性和收敛性,成功地实现两轮机器人的自学习平衡控制,并解决了两轮机器人连续状态空间和动作空间的强化学习问题;仿真和实验表明:该方法不仅在很短的时间内成功地完成对两轮机器人的平衡控制,而且在两轮机器人参数变化较大时,仍能维持两轮机器人的平衡。  相似文献   

2.
针对两轮自平衡机器人在学习过程中主动性差的问题,受心理学内在动机理论启发,提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中,引入模拟人类好奇心的内在动机理论作为内部驱动力,与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累,使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响,进一步采用卡尔曼滤波方法进行补偿,以提高算法收敛速度,降低系统误差。仿真实验表明,该算法能够使两轮机器人通过与环境的交互获得认知,成功地学会运动平衡控制技能。  相似文献   

3.
近年来,深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.  相似文献   

4.
戴丽珍  杨刚  阮晓钢 《自动化学报》2014,40(9):1951-1957
以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机(Autonomous operant conditioning automaton,AOCA)模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善.  相似文献   

5.
针对两轮自平衡机器人的运动平衡控制问题,采用了基于Skinner操作条件反射理论的自回归神经网络学习算法作为机器人的学习机制,利用自回归神经网络对评价函数进行逼近,以实现对行为决策的优化,从而使机器人能够在无需外部环境模型的情况下,通过学习和训练,获得像人或动物一样的自主学习技能,解决了两轮机器人的运动平衡控制问题.最后分别在无扰动和有扰动的两种状态下设计了仿真实验并进行了比较.结果表明,该操作条件反射学习机制具有较快的自主平衡控制技能和较好的鲁棒性能,体现了较高的理论研究意义和工程应用价值.  相似文献   

6.
针对两轮机器人平衡控制中鲁棒性要求较高的问题,设计了基于趋近律的滑模变结构控制器;首先对机器人的非线性模型进行线性化处理,再根据线性模型设计滑模控制器,并使用饱和函数的方法抑制系统的抖振,最后在MATLAB/Simulink上进行了仿真实验,并与状态反馈控制器进行了比较;结果表明在参数摄动存在情况下,滑模控制器优于状态反馈控制器.  相似文献   

7.
多机器人动态编队的强化学习算法研究   总被引:8,自引:0,他引:8  
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性.  相似文献   

8.
为了完成非结构化环境中的机器人轴孔装配任务,提出了一种融入模糊奖励机制的深度确定性策略梯度(DDPG)变参数导纳控制算法,来提升未知环境下的装配效率。建立了轴孔装配接触状态力学模型,并开展轴孔装配机理研究,进而指导机器人装配策略的制定。基于导纳控制器实现柔顺轴孔装配,采用DDPG算法在线辨识控制器的最优参数,并在奖励函数中引入模糊规则,避免陷入局部最优装配策略,提高装配操作质量。在5种不同直径的孔上进行装配实验,并与定参数导纳模型装配效果进行比较。实验结果表明,本文算法明显优于固定参数模型,并在算法收敛后10步内可完成装配操作,有望满足非结构环境自主操作需求。  相似文献   

9.
自平衡两轮机器人的分层模糊控制   总被引:1,自引:0,他引:1  
为解决具有非线性、强耦合和绝对不稳定特点的自平衡两轮机器人的运动控制问题,提出一种分层模糊控制方法.该方法对机器人体的倾斜角度和轮子转动速度分别设计相应的模糊控制器,其输出同时进入决策器,由决策器进行智能判断与协调,输出控制量.两控制器交替工作,实现机器人体倾角控制和轮子转速控制的有机统一.该方法具有模糊规则少,控制逻辑简单的特点.对机器人的速度跟踪、运动停止及转弯等多种运动方式进行了控制仿真实验,验证了控制方法的正确性和有效性.  相似文献   

10.
两轮自平衡机器人控制系统的设计   总被引:1,自引:0,他引:1  
针对自行设计的两轮自平衡机器人Opyanbot建立了动力学模型,应用最优控制和两轮差动等控制方法设计了控制器,提出了针对两轮自平衡机器人平衡和行进的新策略。为了提高两轮自平衡机器人的控制效果,利用基于DSP数字电路的全数字智能伺服驱动单元IPM100分别精确控制左右轮电机,并利用上位机实时控制机器人的运动状态,提高了控制精度、可靠度和集成度,得到了很好的控制效果。  相似文献   

11.
基于轨迹规划的类人机器人在合理的参数组合下可实现快速稳定的行走。为优化步行参数,提出一种基于强化学习的步行参数训练算法。对步行参数进行降阶处理,利用强化学习算法优化参数,并设置奖惩机制。在Robocup3D仿真平台上进行实验,结果证明了该算法的有效性。  相似文献   

12.
内在激励强化学习及其在Robocup仿真中的应用   总被引:5,自引:0,他引:5  
李楠  刘国栋 《计算机仿真》2006,23(4):160-162
针对以往的强化学习对单步动作学习的效率较低,从心理学角度引入内在激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。改变了传统意义上的强化学习的框架模式。在学习的过程中,不但要学习单步的动作值,同时还学连续动作的技巧值,通过构建各种“技巧”,来提高解决新问题的能力,使学习的效率得到很大的提高。最后将内在激励的强化学习运用于Robocup仿真组足球比赛当中。  相似文献   

13.
任燚  陈宗海 《控制与决策》2006,21(4):430-434
多机器人系统中,随着机器人数目的增加.系统中的冲突呈指数级增加.甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务.以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突.避免死锁.提高系统整体性能.  相似文献   

14.
为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互(crowd interaction)对值函数网络做了改进,通过行人角度网格(angel pedestrian grid)对行人之间的交互信息进行提取,并通过注意力机制(attention mechanism)提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为(human spatial behavior)设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。  相似文献   

15.
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。  相似文献   

16.
为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法(Improved Dueling Deep Double [Q]-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。  相似文献   

17.
为了解决传统的强化学习算法应用于移动机器人未知环境的路径规划时存在收敛速度慢、迭代次数多、收敛结果不稳定等问题,提出一种改进的Q-learning算法。在状态初始化时引入人工势场法,使得越靠近目标位置状态值越大,从而引导智能体朝目标位置移动,减少算法初始阶段因对环境探索产生的大量无效迭代;在智能体选择动作时改进[ε]-贪婪策略,根据算法的收敛程度动态调整贪婪因子[ε],从而更好地平衡探索和利用之间的关系,在加快算法收敛速度的同时提高收敛结果的稳定性。基于Python的Tkinter标准化库搭建的格栅地图仿真结果表明,改进的Q-learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。  相似文献   

18.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。  相似文献   

19.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号