期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蔡建羡阮晓钢《模式识别与人工智能》2011,24(1):138-146

针对本质上非线性、强耦合的两轮自平衡机器人复杂动态系统,构造操作条件反射概率自动机(OCPA)仿生自主学习系统。OCPA仿生自主学习系统是一个基于Skinner操作条件反射的概率自动机,主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。从理论上分析OCPA学习系统的操作条件反射学习机制的收敛性。应用于两轮机器人姿态平衡控制的仿真和实验结果均表明,设计的OCPA仿生自主学习系统不需要系统的模型,通过模拟生物的操作条件反射机制,自组织地渐进形成、发展和完善其姿态平衡控制技能。相似文献

2.

基于Skinner操作条件反射的两轮机器人自平衡控制

任红格阮晓钢《控制理论与应用》2010,27(10):1423-1428

针对两轮自平衡机器人的运动平衡控制问题,采用了基于Skinner操作条件反射理论的自回归神经网络学习算法作为机器人的学习机制,利用自回归神经网络对评价函数进行逼近,以实现对行为决策的优化,从而使机器人能够在无需外部环境模型的情况下,通过学习和训练,获得像人或动物一样的自主学习技能,解决了两轮机器人的运动平衡控制问题.最后分别在无扰动和有扰动的两种状态下设计了仿真实验并进行了比较.结果表明,该操作条件反射学习机制具有较快的自主平衡控制技能和较好的鲁棒性能,体现了较高的理论研究意义和工程应用价值. 相似文献

3.

模糊操作条件概率自动机仿生自主学习系统和机器人自平衡控制 总被引：1，自引：1，他引：0

阮晓钢蔡建羡《控制理论与应用》2010,27(7):960-964

为了实现两轮机器人的自平衡控制, 利用Skinner操作条件反射机理, 以概率自动机为平台, 融入模糊推理, 构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统. 该学习系统是一个从状态集合到操作行为集合的随机映射, 采用操作条件反射学习机制, 从操作行为集合中随机学习作为控制系统控制信号的最优行为, 并利用学习到的操作行为取向值信息, 调整操作条件反射学习算法. 此外, 学习系统还引入行为熵, 以验证其自学习和自组织能力. 应用于两轮机器人自平衡控制的仿真结果, 验证了模糊OCPA学习系统的可行性. 相似文献

4.

基于AOCA仿生学习模型的两轮机器人自主平衡学习研究

戴丽珍杨刚阮晓钢《自动化学报》2014,40(9):1951-1957

以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机（Autonomous operant conditioning automaton,AOCA）模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善. 相似文献

5.

轮式机器人鲁棒仿生自主学习算法的研究

《计算机测量与控制》2014,(4)

针对本质不稳定的轮式机器人运动平衡问题,基于操作条件反射原理,结合鲁棒控制,提出了一种鲁棒仿生自主学习算法作为轮式机器人的学习机制;该算法利用鲁棒控制可以提高系统抑制干扰的能力,产生最优控制行为的特点,将其与操作条件反射原理相结合,使机器人通过与未知环境的交互、学习和训练,模拟生物操作条件反射机制以及自学习和自适应技能,实现对轮式机器人的运动平衡控制,并从理论上证明了算法的稳定性;最后,分别用该算法在无干扰和有干扰的两种情况下对机器人做了仿真实验并进行了比较,结果表明,鲁棒仿生自主学习算法能够使机器人获得自主学习和平衡控制的技能,并体现出了较好的学习性能抗干扰能力。相似文献

6.

操作条件反射学习自动机及其在机器人平衡控制中的应用

郜园园阮晓钢宋洪军《控制与决策》2013,28(6):930-934

针对两轮机器人的平衡控制问题,在学习自动机理论的框架中,提出一种基于操作条件反射学习自动机的仿生学习模型.该模型引入认知学习单元和取向单元,分别用来实现操作行为学习和指导系统进化的方向.模拟两轮自平衡机器人的平衡控制仿真实验表明,该学习模型具有可行性和有效性,能使机器人自主学会平衡控制技能,并使其具有高度的自适应能力. 相似文献

7.

动态FOCPA学习系统设计及在机器人运动平衡控制中的应用

蔡建羡阮晓钢《信息与控制》2010,39(5):662-672

针对仿生自主学习系统的自组织和泛化能力问题,基于Skinner操作条件反射原理和模糊聚类算法设计了动态FOCPA（fuzzy operant conditioning probabilistic automaton）仿生自主学习系统。动态FOCPA学习系统不仅具有仿生的自学习和自组织能力,而且提高了学习的精度和速度。其在仅能获得环境微弱反馈信息的前提下,首先采用在线聚类的方法实现对输入空间的灵活划分,以确保映射规则的数目是最经济的;然后以取向值为评价信号,采用OC学习算法,在线自主学习输入状态到输出操作行为的最佳映射,并加入一个高斯噪声项对映射结果进行实时优化。此外,动态FOCPA学习系统还利用信息熵的评价能力,来验证自身的自学习和自组织能力。理论上分析了设计的OC学习算法的收敛性;通过对两轮柔性直立式机器人姿态平衡控制和速度控制的实验分析,验证了动态FOCPA学习系统的有效性。相似文献

8.

基于内在动机的智能机器人自主发育算法

任红格向迎帆李福进《计算机应用》2015,35(9):2602-2605

针对两轮自平衡机器人在学习过程中主动性差的问题,受心理学内在动机理论启发,提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中,引入模拟人类好奇心的内在动机理论作为内部驱动力,与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累,使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响,进一步采用卡尔曼滤波方法进行补偿,以提高算法收敛速度,降低系统误差。仿真实验表明,该算法能够使两轮机器人通过与环境的交互获得认知,成功地学会运动平衡控制技能。相似文献

9.

基于操作条件反射机制的感觉运动系统认知模型的建立

任红格史涛张瑞成《机器人》2012,34(3):292-298

针对运动平衡控制问题,提出了一个基于操作条件反射原理的感觉运动系统认知模型,研究了小脑、基底核、大脑皮质以及其它神经器官工作的协同性,构建了感觉运动系统的认知模型.该认知模型主要由小脑和基底核以及大脑皮质组成,其中:小脑通过监督学习实现状态到行为的感觉运动神经映射;基底核利用行为预测评价结果对动作实施基于操作条件反射原理的概率式选择;而大脑皮质接收并发送有用信号给基底核与小脑,形成了感觉运动系统的闭环反馈回路.本文描述了基于操作条件反射原理的感觉运动系统认知模型的具体结构、功能与算法,并在两轮机器人上进行了仿真实验,再现了机器人类似人或动物的自主学习能力和运动平衡技能.结果表明,该模型具有较强的认知特性,使机器人能通过自主学习掌握运动平衡的控制技能. 相似文献

10.

基于内在动机的强化学习算法在两轮机器人中的研究

任红格向迎帆李福进刘伟民 《计算机测量与控制》2015,23(9):3185-3187, 3191

针对两轮自平衡机器人在学习过程中遇到的主动性差和以往强化学习对单步学习效率低的问题,受心理学中内在动机理论的启发,提出一种基于内在动机的强化学习算法;该算法利用内在动机信号作为内部奖励,模拟人类心理认知机理并与外部信号一起作用于整个学习过程,提高了智能体的自学习能力,同时采用自组织神经网络进行训练,保证了算法的快速性;通过无扰动和有扰动两种仿真实验的对比,验证了基于内在动机的强化学习算法能够使两轮机器人在未知环境下通过自主学习最终达到平衡,且体现了该算法的鲁棒性和可行性。 相似文献

11.

双轮驱动移动机器人的学习控制器设计方法* 总被引：1，自引：0，他引：1

张洪宇徐昕张鹏程刘春明宋金泽《计算机应用研究》2009,26(6):2310-2313

提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基于核的最小二乘策略迭代算法(KLSPI)实现控制器参数的自学习优化。与传统表格型和基于神经网络的增强学习方法不同,KLSPI算法在策略评价中应用核方法进行特征选择和值函数逼近,从而提高了泛化性能和学习效率。仿真结果表明,该方法通过较少次数的迭代就可以获得优化的路径跟随控制策略,有利于在实际应用中的推广。相似文献

12.

神经元PID控制器在两轮机器人控制中的应用 总被引：1，自引：0，他引：1

孙亮孙启兵《控制工程》2011,18(1):113-115

针对两轮机器人传统PID控制器参数整定困难的问题,设计了一种神经元PID控制器.该控制器利用神经元的自学习和自适应能力,在线实时调整控制器各项参数.建立了两轮机器人的非线性模型,讨论了神经元PID控制系统的结构及其控制算法和各项控制器参数的学习算法.将设计的控制器其应用于两轮机器人的平衡控制中,并且与传统PID控制器进... 相似文献

13.

基于强化学习规则的两轮机器人自平衡控制 总被引：1，自引：0，他引：1

阮晓钢蔡建羡陈静《计算机测量与控制》2009,17(2):321-323

两轮机器人是一个典型的不稳定,非线性,强耦合的自平衡系统,在两轮机器人系统模型未知和没有先验经验的条件下,将强化学习算法和模糊神经网络有效结合,保证了函数逼近的快速性和收敛性,成功地实现两轮机器人的自学习平衡控制,并解决了两轮机器人连续状态空间和动作空间的强化学习问题;仿真和实验表明:该方法不仅在很短的时间内成功地完成对两轮机器人的平衡控制,而且在两轮机器人参数变化较大时,仍能维持两轮机器人的平衡。相似文献

14.

多步截断优先扫描强化学习算法

李春贵《计算机工程》2005,31(11):13-15

研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。相似文献

15.

基于蚁群算法的机器人系统LQR最优控制研究

武凌宇王晓东吴建德《传感器与微系统》2018,(1):56-59

针对两轮自平衡机器人线性二次最优控制器(LQR)中的权参数选择问题,提出了一种基于自适应蚁群算法的权矩阵优化参数策略.利用LQR控制器,采用自适应蚁群算法对LQR权矩阵Q的各位参数进行数字寻优,将得到的数字序列进行划分,寻找到最优参数值,从而对两轮自平衡机器人的俯仰属性进行有效的系统控制.仿真实验结果表明:采用蚁群算法优化后的控制器比人工选择参数策略有更好的控制效果,验证了方法的稳定性和有效性. 相似文献