期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

任红格向迎帆李福进刘伟民 《计算机测量与控制》2015,23(9):3185-3187, 3191

针对两轮自平衡机器人在学习过程中遇到的主动性差和以往强化学习对单步学习效率低的问题,受心理学中内在动机理论的启发,提出一种基于内在动机的强化学习算法;该算法利用内在动机信号作为内部奖励,模拟人类心理认知机理并与外部信号一起作用于整个学习过程,提高了智能体的自学习能力,同时采用自组织神经网络进行训练,保证了算法的快速性;通过无扰动和有扰动两种仿真实验的对比,验证了基于内在动机的强化学习算法能够使两轮机器人在未知环境下通过自主学习最终达到平衡,且体现了该算法的鲁棒性和可行性。 相似文献

2.

操作条件反射学习自动机及其在机器人平衡控制中的应用

郜园园阮晓钢宋洪军《控制与决策》2013,28(6):930-934

针对两轮机器人的平衡控制问题,在学习自动机理论的框架中,提出一种基于操作条件反射学习自动机的仿生学习模型.该模型引入认知学习单元和取向单元,分别用来实现操作行为学习和指导系统进化的方向.模拟两轮自平衡机器人的平衡控制仿真实验表明,该学习模型具有可行性和有效性,能使机器人自主学会平衡控制技能,并使其具有高度的自适应能力. 相似文献

3.

Skinner 操作条件反射的一种仿生学习算法与机器人控制 总被引：1，自引：0，他引：1

任红格阮晓钢《机器人》2010,32(1):1

针对两轮自平衡机器人的运动平衡控制问题,提出了基于Skinner 操作条件反射理论的BP 神经网络与资格迹相结合的仿生自主学习算法作为两轮机器人的学习机制．该算法利用资格迹能解决延迟影响、加快学习速度和提高可靠性的特点,将其与BP 神经网络相结合构成复合学习算法,能够预测机器人将要获得的行为评价函数, 并依据概率取向机制以一定的概率选择最大评价值对应的最优行为,从而使机器人能够在未知环境下通过与环境的交互、学习和训练,获得像人或动物一样的自主学习技能,实现对两轮机器人的运动平衡控制．最后,分别用基于 Skinner 操作条件反射理论的BP 算法和BP 资格迹复合算法对两轮机器人做了仿真实验并进行了比较．结果表明, 基于Skinner 操作条件反射理论的BP 资格迹复合仿生自主学习算法的学习机制能够使机器人获得良好的动态性能和较快的学习速度,体现了机器人较强的自主学习技能和平衡控制能力．相似文献

4.

基于Skinner操作条件反射的两轮机器人自平衡控制

任红格阮晓钢《控制理论与应用》2010,27(10):1423-1428

针对两轮自平衡机器人的运动平衡控制问题,采用了基于Skinner操作条件反射理论的自回归神经网络学习算法作为机器人的学习机制,利用自回归神经网络对评价函数进行逼近,以实现对行为决策的优化,从而使机器人能够在无需外部环境模型的情况下,通过学习和训练,获得像人或动物一样的自主学习技能,解决了两轮机器人的运动平衡控制问题.最后分别在无扰动和有扰动的两种状态下设计了仿真实验并进行了比较.结果表明,该操作条件反射学习机制具有较快的自主平衡控制技能和较好的鲁棒性能,体现了较高的理论研究意义和工程应用价值. 相似文献

5.

轮式机器人鲁棒仿生自主学习算法的研究

《计算机测量与控制》2014,(4)

针对本质不稳定的轮式机器人运动平衡问题,基于操作条件反射原理,结合鲁棒控制,提出了一种鲁棒仿生自主学习算法作为轮式机器人的学习机制;该算法利用鲁棒控制可以提高系统抑制干扰的能力,产生最优控制行为的特点,将其与操作条件反射原理相结合,使机器人通过与未知环境的交互、学习和训练,模拟生物操作条件反射机制以及自学习和自适应技能,实现对轮式机器人的运动平衡控制,并从理论上证明了算法的稳定性;最后,分别用该算法在无干扰和有干扰的两种情况下对机器人做了仿真实验并进行了比较,结果表明,鲁棒仿生自主学习算法能够使机器人获得自主学习和平衡控制的技能,并体现出了较好的学习性能抗干扰能力。相似文献

6.

基于AOCA仿生学习模型的两轮机器人自主平衡学习研究

戴丽珍杨刚阮晓钢《自动化学报》2014,40(9):1951-1957

以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机（Autonomous operant conditioning automaton,AOCA）模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善. 相似文献

7.

基于操作条件反射机制的感觉运动系统认知模型的建立

任红格史涛张瑞成《机器人》2012,34(3):292-298

针对运动平衡控制问题,提出了一个基于操作条件反射原理的感觉运动系统认知模型,研究了小脑、基底核、大脑皮质以及其它神经器官工作的协同性,构建了感觉运动系统的认知模型.该认知模型主要由小脑和基底核以及大脑皮质组成,其中:小脑通过监督学习实现状态到行为的感觉运动神经映射;基底核利用行为预测评价结果对动作实施基于操作条件反射原理的概率式选择;而大脑皮质接收并发送有用信号给基底核与小脑,形成了感觉运动系统的闭环反馈回路.本文描述了基于操作条件反射原理的感觉运动系统认知模型的具体结构、功能与算法,并在两轮机器人上进行了仿真实验,再现了机器人类似人或动物的自主学习能力和运动平衡技能.结果表明,该模型具有较强的认知特性,使机器人能通过自主学习掌握运动平衡的控制技能. 相似文献

8.

基于机器学习实现双轮机器人平衡控制的应用研究

孙亮甘飞梅《计算机测量与控制》2011,19(12)

为了有效地解决双轮机器人平衡控制问题,改善学习时间过长的问题,使双轮机器人具有自学习能力;将机器学习中强化学习算法应用于双轮机器人上,利用内部回归神经网络构造性能评价函数,设计了一种新型控制算法;该算法是一种不需要预测和辨识模型,在模型未知及没有先验经验的条件下,通过自身神经网络的在线学习,以实现对双轮机器人的自学习平衡控制; Matlab仿真以及物理实验表明:该方法能在短时间内成功实现对双轮机器人的自学习平衡控制,且在性能上优于其它学习算法. 相似文献

9.

基于强化学习规则的两轮机器人自平衡控制 总被引：1，自引：0，他引：1

阮晓钢蔡建羡陈静《计算机测量与控制》2009,17(2):321-323

两轮机器人是一个典型的不稳定,非线性,强耦合的自平衡系统,在两轮机器人系统模型未知和没有先验经验的条件下,将强化学习算法和模糊神经网络有效结合,保证了函数逼近的快速性和收敛性,成功地实现两轮机器人的自学习平衡控制,并解决了两轮机器人连续状态空间和动作空间的强化学习问题;仿真和实验表明:该方法不仅在很短的时间内成功地完成对两轮机器人的平衡控制,而且在两轮机器人参数变化较大时,仍能维持两轮机器人的平衡。相似文献

10.

两轮机器人具有内发动机机制的感知运动系统的建立

张晓平阮晓钢肖尧朱晓庆《自动化学报》2016,42(8):1175-1184

针对两轮机器人运动平衡控制问题,为其建立起一种人工感知运动系统TWR-SMS（Two-wheeled robot sensorimotor system）,使机器人在与环境的接触过程中可以通过学习自主掌握运动平衡技能.感知运动系统的认知系统以学习自动机为数学模型,引入好奇心和取向性概念,设计了能够主动探索环境以及主动学习环境的内发动机机制.实验结果证明内发动机机制的引入不仅提高了机器人的自学习和自组织特性,同时能够有效避免小概率事件的发生,稳定性较高.与传统线性二次型调节器（Linear quadratic regulator,LQR）控制方法的对比实验表明系统具有更好的鲁棒性. 相似文献

11.

OCPA仿生自主学习系统及在机器人姿态平衡控制上的应用

蔡建羡阮晓钢《模式识别与人工智能》2011,24(1):138-146

针对本质上非线性、强耦合的两轮自平衡机器人复杂动态系统,构造操作条件反射概率自动机(OCPA)仿生自主学习系统。OCPA仿生自主学习系统是一个基于Skinner操作条件反射的概率自动机,主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。从理论上分析OCPA学习系统的操作条件反射学习机制的收敛性。应用于两轮机器人姿态平衡控制的仿真和实验结果均表明,设计的OCPA仿生自主学习系统不需要系统的模型,通过模拟生物的操作条件反射机制,自组织地渐进形成、发展和完善其姿态平衡控制技能。相似文献

12.

Bionic autonomous learning control of a two-wheeled self-balancing flexible robot

Jianxian CAI Xiaogang RUAN 《控制理论与应用(英文版)》2011,9(4):521-528

This paper presents an OCPA (operant conditioning probabilistic automaton) bionic autonomous learning system based on Skinner’s operant conditioning theory for solving the balance control problem of a two-wheeled flexible robot. The OCPA learning system consists of two stages: in the first stage, an operant action is selected stochastically from a set of operant actions and then used as the input of the control system; in the second stage, the learning system gathers the orientation information of the system and uses it for optimization until achieves control target. At the same time, the size of the operant action set can be automatically reduced during the learning process for avoiding little probability event. Theory analysis is made for the designed OCPA learning system in the paper, which theoretically proves the convergence of operant conditioning learning mechanism in OCPA learning system, namely the operant action entropy will converge to minimum with the learning process. And then OCPA learning system is applied to posture balanced control of two-wheeled flexible self-balanced robots. Robot does not have posutre balanced skill in initial state and the selecting probability of each operant in operant sets is equal. With the learning proceeding, the selected probabilities of optimal operant gradually tend to one and the operant action entropy gradually tends to minimum, and so robot gradually learned the posture balanced skill. 相似文献

13.

模糊操作条件概率自动机仿生自主学习系统和机器人自平衡控制 总被引：1，自引：1，他引：0

阮晓钢蔡建羡《控制理论与应用》2010,27(7):960-964

为了实现两轮机器人的自平衡控制, 利用Skinner操作条件反射机理, 以概率自动机为平台, 融入模糊推理, 构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统. 该学习系统是一个从状态集合到操作行为集合的随机映射, 采用操作条件反射学习机制, 从操作行为集合中随机学习作为控制系统控制信号的最优行为, 并利用学习到的操作行为取向值信息, 调整操作条件反射学习算法. 此外, 学习系统还引入行为熵, 以验证其自学习和自组织能力. 应用于两轮机器人自平衡控制的仿真结果, 验证了模糊OCPA学习系统的可行性. 相似文献

14.

一种具有发育机制的感知行动认知模型

张晓平阮晓钢王力李志军闫佳庆毕松《自动化学报》2021,47(2):391-403

针对结构固定认知模型中存在的学习浪费与计算浪费问题, 在具有内发动机机制的感知行动认知模型基础上, 根据操作条件反射学习特性, 借鉴潜在动作原理, 建立起一种具有发育机制的感知行动认知模型D-SSCM (Development-sensorimotor cognitive model), 具体为一个14元组, 包含离散学习时间集、内部可感知离散状态集、可输出动作集、有效输出动作空间集、潜在动作关系集、可输出动作空间探索率集及发育算法等.针对模型发育过程, 分别设计了模型结构扩展式发育方法和算法以及缩减式发育方法和算法, 定义了模型的发育式学习过程.使用两轮机器人自平衡任务对设计的学习模型进行验证, 实验结果表明, 发育机制下的感知行动认知模型D-SSCM具有更快的学习速度及更稳定的学习效果. 相似文献

15.

视觉陌生度驱动的增量自主式视觉学习算法

下载免费PDF全文

瞿心昱姚明海顾勤龙《中国图象图形学报》2012,17(6):678-686

针对传统机器学习框架下设计智能机器人造成的视觉任务执行时学习主动性差、对不确定情况适应性差、知识与能力扩展性差等问题,立足近年来新提出的认知发育思想,提出一种由视觉陌生度驱动的增量自主式视觉学习算法。算法根据在线主成分分析(PCA)计算视觉陌生度,作为Q学习内部动机,以PCA子空间的更新作为知识的主动学习与积累,并由以视觉陌生度为内部动机的Q学习引导,使得机器人能根据所学知识与所"见"场景的陌生程度来决策下一步如何学习。实验结果表明,该算法具有自主探索与学习性能、主动引导机器人学习新知识的能力,以及在线、增量地获取积累知识并发育其智能的能力。相似文献

16.

动态FOCPA学习系统设计及在机器人运动平衡控制中的应用

蔡建羡阮晓钢《信息与控制》2010,39(5):662-672

针对仿生自主学习系统的自组织和泛化能力问题,基于Skinner操作条件反射原理和模糊聚类算法设计了动态FOCPA（fuzzy operant conditioning probabilistic automaton）仿生自主学习系统。动态FOCPA学习系统不仅具有仿生的自学习和自组织能力,而且提高了学习的精度和速度。其在仅能获得环境微弱反馈信息的前提下,首先采用在线聚类的方法实现对输入空间的灵活划分,以确保映射规则的数目是最经济的;然后以取向值为评价信号,采用OC学习算法,在线自主学习输入状态到输出操作行为的最佳映射,并加入一个高斯噪声项对映射结果进行实时优化。此外,动态FOCPA学习系统还利用信息熵的评价能力,来验证自身的自学习和自组织能力。理论上分析了设计的OC学习算法的收敛性;通过对两轮柔性直立式机器人姿态平衡控制和速度控制的实验分析,验证了动态FOCPA学习系统的有效性。相似文献