首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对两轮自平衡机器人在学习过程中遇到的主动性差和以往强化学习对单步学习效率低的问题,受心理学中内在动机理论的启发,提出一种基于内在动机的强化学习算法;该算法利用内在动机信号作为内部奖励,模拟人类心理认知机理并与外部信号一起作用于整个学习过程,提高了智能体的自学习能力,同时采用自组织神经网络进行训练,保证了算法的快速性;通过无扰动和有扰动两种仿真实验的对比,验证了基于内在动机的强化学习算法能够使两轮机器人在未知环境下通过自主学习最终达到平衡,且体现了该算法的鲁棒性和可行性。  相似文献   

2.
自主发育智能机器人体系结构研究   总被引:1,自引:0,他引:1  
传统的机器人系统范式分类已经无法将新出现的方法和理论纳入其中。为此,首先从认知的角度重新对机器人的范式进行分类。新的范式分类涵盖了传统的系统范式,明确了自主发育在机器人系统范式中的地位。在此基础上,提出了自主发育智能机器人体系结构。该结构只需利用基本的感知能力和行动能力,分别利用感知发育模块、认知发育模块和行为发育模块实现自主感知分类、时空经验知识以及反应式行为的逐层发育。各发育模块之间互相依赖并可以同时学习,具有实时的自主发育能力。  相似文献   

3.
戴丽珍  杨刚  阮晓钢 《自动化学报》2014,40(9):1951-1957
以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机(Autonomous operant conditioning automaton,AOCA)模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善.  相似文献   

4.
基于改进型自主发育网络的机器人场景识别方法   总被引:1,自引:0,他引:1  
余慧瑾  方勇纯 《自动化学报》2021,47(7):1530-1538
场景识别是移动机器人在陌生动态环境中完成任务的前提. 考虑到现有方法的不足, 本文提出了一种基于改进型自主发育网络的场景识别方法, 它通过引入基于多优胜神经元的Top-k竞争机制、基于负向学习的权值更新、基于连续性样本的加强型学习等步骤实现对场景的快速识别, 并使该方法具有更好的适应能力. 对于这种基于改进型自主发育网络的场景识别方法, 通过实验进行了对比测试. 结果表明, 这种改进型自主发育神经网络节点利用率高, 场景识别准确可靠, 可以较好地满足机器人作业的实际需求.  相似文献   

5.
近年来,深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.  相似文献   

6.
Skinner 操作条件反射的一种仿生学习算法与机器人控制   总被引:1,自引:0,他引:1  
针对两轮自平衡机器人的运动平衡控制问题,提出了基于Skinner 操作条件反射理论的BP 神经网络 与资格迹相结合的仿生自主学习算法作为两轮机器人的学习机制.该算法利用资格迹能解决延迟影响、加快学习速 度和提高可靠性的特点,将其与BP 神经网络相结合构成复合学习算法,能够预测机器人将要获得的行为评价函数, 并依据概率取向机制以一定的概率选择最大评价值对应的最优行为,从而使机器人能够在未知环境下通过与环境的 交互、学习和训练,获得像人或动物一样的自主学习技能,实现对两轮机器人的运动平衡控制.最后,分别用基于 Skinner 操作条件反射理论的BP 算法和BP 资格迹复合算法对两轮机器人做了仿真实验并进行了比较.结果表明, 基于Skinner 操作条件反射理论的BP 资格迹复合仿生自主学习算法的学习机制能够使机器人获得良好的动态性能 和较快的学习速度,体现了机器人较强的自主学习技能和平衡控制能力.  相似文献   

7.
基于UKF的两轮自平衡机器人姿态最优估计研究   总被引:3,自引:0,他引:3  
赵杰  王晓宇  秦勇  蔡鹤皋 《机器人》2006,28(6):605-609
针对扩展卡尔曼滤波器(EKF)设计困难并且容易发散的问题,提出基于采样卡尔曼滤波(UKF)的方法解决滤波器设计及收敛问题,并补偿低成本的惯性传感器陀螺仪和加速度计的误差,从而得到机器人姿态的最优估计.将滤波后的模型应用到两轮自平衡机器人系统,实验结果表明UKF参数设计简单,姿态估计误差小于EKF,方差估计优于EKF,估计精度、计算量基本与EKF相当.因此,UKF能够满足两轮自平衡机器人快速机动过程中的实时姿态估计要求.  相似文献   

8.
黄敏  路飞  李晓磊  田国会  孟可 《机器人》2019,41(5):609-619
为了解决传统的基于知识或基于学习的机器人服务认知机制的智能性和普适性较差的问题,构建了一个基于IHDR(增量分层判别回归)算法和BP(反向传播)神经网络复合框架的机器人服务任务自主认知和自主发育系统.在家庭服务机器人智能空间中丰富的传感器和物联网技术的支持下,采集大量用于机器人学习和发育的样本数据;在此基础上,针对智能空间样本数据的混合特性,设计改进的IHDR算法,实现对混合型样本数据的聚类更新和响应计算,并将生成的IHDR树作为机器人存储历史经验的"大脑",使机器人能够利用"大脑"中已有的经验进行自主学习和相应判断,以实现对服务的自主认知;利用JSHOP2(Java simple hierarchical planner)规划器对认知的复杂任务进行分解,得到可被机器人直接执行的原子任务.为了避免IHDR树规模不足的局限性,设计基于BP神经网络的服务认知算法,利用样本数据训练BP神经网络,实现智能空间实际场景到用户所需服务的映射,在IHDR树无法提供历史经验的情况下,使机器人仍能基于BP神经网络自主进行服务决策.然后将此映射结果以增量的方式更新到IHDR树中,丰富其具备的经验知识,实现机器人服务自主认知能力的发育.仿真实验结果表明,该复合框架可以有效提高服务机器人对智能空间情景下用户所需服务的认知准确性及认知发育能力,推进人机共融的实现.  相似文献   

9.
基于数据融合的两轮自平衡小车控制系统设计   总被引:7,自引:0,他引:7  
为解决两轮自平衡系统中传感器存在较大震动干扰与漂移误差的问题,并提高系统姿态倾角测量的精确性和实时性,提出了基于陀螺仪与加速度计数据融合的两轮系统自平衡控制方法。建立两轮自平衡系统的动力学模型,采用卡尔曼滤波算法融合陀螺仪与加速度计信号,得到系统姿态倾角与角速度最优估计值,通过双闭环数字PID算法实现两轮系统的自平衡控制。通过两轮小车自平衡控制系统的软硬件设计,成功验证了该方法的可行性与有效性。利用该方法大大提高了两轮自平衡系统的抗干扰性。  相似文献   

10.
基于强化学习规则的两轮机器人自平衡控制   总被引:1,自引:0,他引:1  
两轮机器人是一个典型的不稳定,非线性,强耦合的自平衡系统,在两轮机器人系统模型未知和没有先验经验的条件下,将强化学习算法和模糊神经网络有效结合,保证了函数逼近的快速性和收敛性,成功地实现两轮机器人的自学习平衡控制,并解决了两轮机器人连续状态空间和动作空间的强化学习问题;仿真和实验表明:该方法不仅在很短的时间内成功地完成对两轮机器人的平衡控制,而且在两轮机器人参数变化较大时,仍能维持两轮机器人的平衡。  相似文献   

11.
组合导航技术是解决地面机器人自主导航的一个有效途径,其中GPS/DR是一种典型的组合方式。常用的卡尔曼滤波主要用于处理线性问题,针对该导航系统非线性的特点,对Unscented卡尔曼滤波(UKF)与分散式滤波技术相结合的方法进行了研究,建立了用于GPS/DR导航系统的联邦UKF算法。数值仿真实验表明,联邦UKF比联邦EKF有更好的滤波精度,同时有更高的稳定性和容错性,是一种理想的GPS/DR导航非线性滤波方法。  相似文献   

12.
针对移动机器人在多传感器融合定位过程中因噪声统计特性未知或不准确引起的定位精度不高的问题,提出了一种基于Sage-Husa滤波改进的无损卡尔曼滤波(UKF)移动机器人定位算法。首先建立了移动机器人定位相关模型;然后根据噪声统计特性时变特点利用Sage-Husa中的噪声估计器,对状态噪声和量测噪声进行自适应地估计,减小扰动噪声给定位解算带来的误差;接着在状态更新时引入收敛因子,加快算法收敛速度;最后将UKF算法和改进的UKF算法应用到实验室移动机器人中进行仿真实验。实验结果表明,所提出的算法对状态扰动具有较强的抵制能力,对机器人定位的准确性与稳定性的提升具有显著效果。  相似文献   

13.
14.
基于卡尔曼滤波的移动机器人运动目标跟踪   总被引:4,自引:0,他引:4  
提出了一种基于卡尔曼滤波的运动目标快速跟踪算法。针对复杂背景下彩色运动目标跟踪问题,采用基于颜色特征和形状特征相结合的方法进行目标识别。利用卡尔曼滤波器的预测功能,预测运动目标在下一帧中的位置,将图像全局搜索问题转换为局部搜索,提高了系统的实时性。实验结果表明:该算法满足移动机器人运动控制的实时性要求,实现了对运动目标的快速跟踪。  相似文献   

15.
针对多变量、非线性的两轮机器人系统的行走平衡控制问题,提出一种基于Backstepping(反推)方法和PID的控制策略。该策略在Backstepping控制器中加入模糊自适应部分,利用模糊系统逼近Backstepping设计过程中的未知非线性函数,模糊系统中的参数基于自适应律调整,解决了Backstepping控制器中因含有未知参数难以实现的困难,避免了两轮机器人系统不满足严格三角结构的问题。针对两轮机器人的仿真实验结果表明:采用设计的控制策略,可以实现两轮机器人的行走平衡控制任务。  相似文献   

16.
基于模糊自适应卡尔曼滤波的移动机器人定位方法*   总被引:1,自引:0,他引:1  
针对移动机器人定位过程中噪声统计特性不确定的问题,提出一种模糊自适应扩展卡尔曼滤波定位方法。利用模糊理论和协方差匹配技术对扩展卡尔曼滤波算法中的观测噪声协方差R进行自适应调整,实现定位算法性能的在线改进;同时采用传感器故障诊断与修复算法来监测传感器的工作状态,提高定位算法的鲁棒性。将该方法用于观测噪声统计特性未知情况下的移动机器人定位。实验结果表明,该方法可以有效地降低观测噪声先验信息不确定的影响,提高机器人定位的精度。  相似文献   

17.
建立了机器人运动学模型,设计了基于Lyaponov稳定理论的轨迹跟踪控制器,该控制器的性能取决于其参数的大小。粒子群优化算法具有收敛速度快,需要调节的参数少等优点,但优化过程中容易发生“早熟”收敛,使优化陷入局部极小值。通过引入模拟退火算法、“交叉算子”和“变异算子”,提出了一种改进粒子群优化算法,对控制器的参数进行优化设计。最后,通过仿真计算,证明了该方法的有效性。  相似文献   

18.
两轮机器人在坡面上运动时,由于受到重力作用的影响,其姿态平衡控制变得更加复杂。为实现机器人在坡面上的平衡控制,首先建立了两轮机器人在坡面上的动力学模型,然后针对两轮机器人设计一种非线性PD控制器。与传统的线性PD控制器进行仿真实验对比,实验结果说明:在响应速度、稳定性、鲁棒性方面,非线性PD控制有着更好的效果。最后,在姿态平衡控制中加入速度控制,构成双环的PD控制,实现了两轮机器人在坡面上的静态平衡。  相似文献   

19.
提出了基于惯性测量单元IMU的主动型伴舞机器人人机协作控制算法。机器人腰部安装具有一定刚度的弹簧,利用Kalman滤波将三轴加速度计数据与三轴陀螺仪数据进行融合,得到机器人在人类舞伴作用下的姿态角变化,采用阈值法滤除相对姿态角抖动误差,再结合当前机器人状态,综合判断得到相对姿态角到速度矢量的映射。将期望轨迹速度与人力产生的轨迹修正速度融合,得到人机协作下机器人的运动轨迹和剩余目标点的坐标修正值。将算法应用于华尔兹CCL舞步轨迹测试,实验结果表明算法效果良好。  相似文献   

20.
针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号