共查询到16条相似文献,搜索用时 109 毫秒
1.
为了实现两轮机器人的自平衡控制, 利用Skinner操作条件反射机理, 以概率自动机为平台, 融入模糊推理, 构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统. 该学习系统是一个从状态集合到操作行为集合的随机映射, 采用操作条件反射学习机制, 从操作行为集合中随机学习作为控制系统控制信号的最优行为, 并利用学习到的操作行为取向值信息, 调整操作条件反射学习算法. 此外, 学习系统还引入行为熵, 以验证其自学习和自组织能力. 应用于两轮机器人自平衡控制的仿真结果, 验证了模糊OCPA学习系统的可行性. 相似文献
2.
针对本质上非线性、强耦合的两轮自平衡机器人复杂动态系统,构造操作条件反射概率自动机(OCPA)仿生自主学习系统。OCPA仿生自主学习系统是一个基于Skinner操作条件反射的概率自动机,主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。从理论上分析OCPA学习系统的操作条件反射学习机制的收敛性。应用于两轮机器人姿态平衡控制的仿真和实验结果均表明,设计的OCPA仿生自主学习系统不需要系统的模型,通过模拟生物的操作条件反射机制,自组织地渐进形成、发展和完善其姿态平衡控制技能。 相似文献
3.
Skinner 操作条件反射的一种仿生学习算法与机器人控制 总被引:1,自引:0,他引:1
针对两轮自平衡机器人的运动平衡控制问题,提出了基于Skinner 操作条件反射理论的BP 神经网络
与资格迹相结合的仿生自主学习算法作为两轮机器人的学习机制.该算法利用资格迹能解决延迟影响、加快学习速
度和提高可靠性的特点,将其与BP 神经网络相结合构成复合学习算法,能够预测机器人将要获得的行为评价函数,
并依据概率取向机制以一定的概率选择最大评价值对应的最优行为,从而使机器人能够在未知环境下通过与环境的
交互、学习和训练,获得像人或动物一样的自主学习技能,实现对两轮机器人的运动平衡控制.最后,分别用基于
Skinner 操作条件反射理论的BP 算法和BP 资格迹复合算法对两轮机器人做了仿真实验并进行了比较.结果表明,
基于Skinner 操作条件反射理论的BP 资格迹复合仿生自主学习算法的学习机制能够使机器人获得良好的动态性能
和较快的学习速度,体现了机器人较强的自主学习技能和平衡控制能力. 相似文献
4.
针对仿生自主学习控制问题,根据自动机的原理,以操作条件反射学习机制为基础,运用仿生的自组织学习方法,提出一种自治操作条件反射自动机(autonomous operant conditioning automata,AOCA)模型,主要包括:操作集合、状态集合、“条件-操作”规则集合、可观测的状态转移以及操作条件反射学习律;定义了基于AOCA状态取向值的操作熵;给出了AOCA操作熵收敛性证明;分析了AOCA自组织特性;规定了AOCA的递归运行程序.同时,将其应用于斯金纳动物实验的模拟,动物分阶段学习,并且成功习得技能,实验结果表明AOCA实现了模拟操作条件反射学习机制. 相似文献
5.
针对两轮自平衡机器人的运动平衡控制问题,采用了基于Skinner操作条件反射理论的自回归神经网络学习算法作为机器人的学习机制,利用自回归神经网络对评价函数进行逼近,以实现对行为决策的优化,从而使机器人能够在无需外部环境模型的情况下,通过学习和训练,获得像人或动物一样的自主学习技能,解决了两轮机器人的运动平衡控制问题.最后分别在无扰动和有扰动的两种状态下设计了仿真实验并进行了比较.结果表明,该操作条件反射学习机制具有较快的自主平衡控制技能和较好的鲁棒性能,体现了较高的理论研究意义和工程应用价值. 相似文献
6.
针对仿生自主学习系统的自组织和泛化能力问题,基于Skinner操作条件反射原理和模糊聚类算法设计了动态FOCPA(fuzzy operant conditioning probabilistic automaton)仿生自主学习系统。动态FOCPA学习系统不仅具有仿生的自学习和自组织能力,而且提高了学习的精度和速度。其在仅能获得环境微弱反馈信息的前提下,首先采用在线聚类的方法实现对输入空间的灵活划分,以确保映射规则的数目是最经济的;然后以取向值为评价信号,采用OC学习算法,在线自主学习输入状态到输出操作行为的最佳映射,并加入一个高斯噪声项对映射结果进行实时优化。此外,动态FOCPA学习系统还利用信息熵的评价能力,来验证自身的自学习和自组织能力。理论上分析了设计的OC学习算法的收敛性;通过对两轮柔性直立式机器人姿态平衡控制和速度控制的实验分析,验证了动态FOCPA学习系统的有效性。 相似文献
7.
针对认知机器人的自主学习问题,提出一种基于操作条件反射原理的学习模型(OCLM).该模型采用状态空间、操作行为空间、概率分布函数、仿生学习机制、系统熵等进行描述,给出状态的"负理想度"的概念,定义了取向函数的计算方法.运用模型对机器人避障导航问题进行仿真实验,并对参数设置进行了讨论.实验结果表明,基于OCLM模型的机器人能通过与环境的交互获得认知,成功避障到达目的地,具有一定的自学习能力,从而表明了模型的有效性. 相似文献
8.
《计算机测量与控制》2014,(4)
针对本质不稳定的轮式机器人运动平衡问题,基于操作条件反射原理,结合鲁棒控制,提出了一种鲁棒仿生自主学习算法作为轮式机器人的学习机制;该算法利用鲁棒控制可以提高系统抑制干扰的能力,产生最优控制行为的特点,将其与操作条件反射原理相结合,使机器人通过与未知环境的交互、学习和训练,模拟生物操作条件反射机制以及自学习和自适应技能,实现对轮式机器人的运动平衡控制,并从理论上证明了算法的稳定性;最后,分别用该算法在无干扰和有干扰的两种情况下对机器人做了仿真实验并进行了比较,结果表明,鲁棒仿生自主学习算法能够使机器人获得自主学习和平衡控制的技能,并体现出了较好的学习性能抗干扰能力。 相似文献
9.
为更加精准地检测或维修高压柜设备,降低在复杂环境下受到的影响,提出基于学习自动机的机器人协调操作感知控制方法。定量描述机械臂柔性连杆形变,依照拉格朗日定理推导机器人操作系统动力学规律与振动方程;使用导纳理论计算机器臂作用力与预期速率的关系,得到协调操作约束条件;将协调操作感知控制转换成二次型问题,利用学习自动机方法控制运动行为,保证机器人在规定时间内完成变电站高压柜分合闸和更换断路器等工作的协调操作感知控制。仿真结果表明,所提方法协调操作感知控制精度高、效率快,提高了机器人运动的柔顺性与同步性。 相似文献
10.
针对一类单输入单输出高阶非线性控制系统,提出一种基于滑模思想和Elman网络的操作条件反射(OCR)学习控制方法.该方法采用Elman网络构造滑模面-行为对的评价函数,通过滑模面的变化设计奖赏函数,根据奖赏信号更新评价函数,实现行为选择概率的更新.通过每轮次熵的定义,定量分析了所学知识的变化量.针对行走倒立摆系统的仿真实验结果表明,采用该仿生的OCR学习控制方法,可实现行走倒立摆的平衡控制. 相似文献
11.
以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机(Autonomous operant conditioning automaton,AOCA)模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善. 相似文献
12.
由于中央空调水系统非线性、大滞后的特点,目前楼宇自控和通用变频器控制方法的节能效果不显著,提出了模糊控制方法,通过负荷预测模糊控制的冷冻水控制和自适应模糊算法的冷却水控制,实现了冷水机组制冷量的供给与末端负荷需求大小相匹配、冷却水系统处于最大效率运行,取得了最大的节能效益。最后完成了冷冻站中央空调水系统的控制设计,并以实际工程测试结果分析了中央空调模糊控制取得节能效果。 相似文献
13.
针对列控系统难以建立精确的动力学模型问题,利用列车运行过程中包含的大量重复信息,选用迭代学习算法对列车动力学模型中的未知参数进行辨识并提出基于迭代学习控制的列车自动运行控制算法。算法核心是利用历史数据生成新的控制量控制列车自动运行。仿真结果表明,经过一定次数的迭代,参数辨识值保持稳定并且列车能够严格跟踪目标曲线行驶,保证列车高精度、高平稳、高安全的运行。 相似文献
14.
This paper presents an OCPA (operant conditioning probabilistic automaton) bionic autonomous learning system based on Skinner’s operant conditioning theory for solving the balance control problem of a two-wheeled flexible robot. The OCPA learning system consists of two stages: in the first stage, an operant action is selected stochastically from a set of operant actions and then used as the input of the control system; in the second stage, the learning system gathers the orientation information of the system and uses it for optimization until achieves control target. At the same time, the size of the operant action set can be automatically reduced during the learning process for avoiding little probability event. Theory analysis is made for the designed OCPA learning system in the paper, which theoretically proves the convergence of operant conditioning learning mechanism in OCPA learning system, namely the operant action entropy will converge to minimum with the learning process. And then OCPA learning system is applied to posture balanced control of two-wheeled flexible self-balanced robots. Robot does not have posutre balanced skill in initial state and the selecting probability of each operant in operant sets is equal. With the learning proceeding, the selected probabilities of optimal operant gradually tend to one and the operant action entropy gradually tends to minimum, and so robot gradually learned the posture balanced skill. 相似文献
15.
针对移动机器人避障上存在的自适应能力较差的问题,结合遗传算法(GA)的进化思想,以自适应启发评价(AHC)学习和操作条件反射(OC)理论为基础,提出了一种基于进化操作行为学习模型(EOBLM)的移动机器人学习避障行为的方法。该方法是一种改进的AHC学习模式,评价单元采用多层前向神经网络来实现,利用TD算法和梯度下降法进行权值更新,这一阶段学习用来生成取向性信息,作为内在动机决定进化的方向;动作选择单元主要用来优化操作行为以实现状态到动作的最佳映射。优化过程分两个阶段来完成,第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA学习算法搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。通过移动机器人避障仿真实验,结果表明所设计的EOBLM能使机器人通过不断与外界未知环境进行交互主动学会避障的能力,与传统的AHC方法相比其自学习自适应的能力得到加强。 相似文献
16.
为提高移动机器人对特定轨迹的重复跟踪能力,提出了采用开闭环PD型迭代学习控制算法对移动机器人进行轨迹跟踪控制的方法。建立了包含外界干扰的非完整约束条件下的轮式移动机器人运动学模型,给出了系统的控制算法和控制结构。仿真结果表明,采用开闭环PD型迭代学习控制算法对轨迹跟踪是可行有效的,收敛速度优于其他迭代学习算法。 相似文献