首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 281 毫秒
1.
为提升机器人的行为智能水平,提出一种基于增量式径向基函数网络(IRBFN)的Q学习(IRBFN-QL)算法.其核心是通过结构的自适应增长与参数的在线学习,实现对Q值函数的学习与存储,从而使机器人可以在未知环境中自主增量式地学习行为策略.首先,采用近似线性独立(ALD)准则在线增加网络节点,使机器人的记忆容量伴随状态空间的拓展自适应增长.同时,节点的增加意味着网络拓扑内部连接的改变.采用核递归最小二乘(KRLS)算法更新网络拓扑连接关系及参数,使机器人不断扩展与优化自身的行为策略.此外,为避免过拟合问题,将L2正则项融合到KRLS算法中,得到L2约束下的核递归最小二乘算法(L2KRLS).实验结果表明,IRBFN-QL算法能够实现机器人与未知环境的自主交互,并逐步提高移动机器人在走廊环境中的导航行为能力.  相似文献   

2.
阳杰  张凯 《微处理机》2021,(1):47-51
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题,针对Q学习路径规划问题提出一种基于Metropolis准则的区域扩张策略的势场强化学习算法。算法为环境提供势场先验知识初始化状态信息,消除初始时刻的盲目性,提高学习效率,同时引入基于Metropolis准则的区域扩张陷阱区域剔除探索,剔除陷阱障碍物环境的凹形区域。通过MATLAB对多种环境的仿真实验,验证了算法有效性。  相似文献   

3.
未知环境下基于有先验知识的滚动Q学习机器人路径规划   总被引:1,自引:0,他引:1  
胡俊  朱庆保 《控制与决策》2010,25(9):1364-1368
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意.  相似文献   

4.
基于情感与环境认知的移动机器人自主导航控制   总被引:2,自引:0,他引:2  
将基于情感和认知的学习与决策模型引入到基于行为的移动机器人控制体系中, 设计了一种新的自主导航控制系统. 将动力学系统方法用于基本行为设计, 并利用ART2神经网络实现对连续的环境感知状态的分类, 将分类结果作为学习与决策算法中的环境认知状态. 通过在线情感和环境认知学习, 形成合理的行为协调机制. 仿真表明, 情感和环境认知能明显地改善学习和决策过程效率, 提高基于行为的移动机器人在未知环境中的自主导航能力  相似文献   

5.
解决同时定位与地图构建(SLAM)问题是实现机器人自主导航的核心.目前,Rao-Blackwellized粒子滤波器(RBPF)是解决机器人同时定位与地图构建的有效方法.该方法在计算提议分布时,通常只考虑移动机器人的里程计信息,因此存在需要大量的采样粒子造成的计算量和复杂度增大的问题.本文提出一种改进算法,在计算提议分布时将机器人里程计信息和激光传感器采集的距离信息进行融合,有效地减少了所需粒子的数量并降低了滤波器预测阶段机器人位姿的不确定性.本文在机器人操作系统(robot operating system,ROS)平台上,使用配有URG激光器的Pioneer3-DX机器人进行了实验.结果表明,采用本文方法能够实时在线地创建高精度的栅格地图,为机器人在未知环境中的SLAM和导航提供了新途径.  相似文献   

6.
针对不确定环境下机器人行为控制的维数灾难和感知混淆问题,引入神经元激励机制,提出一种情景记忆驱动的马尔可夫决策过程(EM-MDP)以实现机器人对环境经验自主学习,及多源不确定性条件下的行为控制.首先,构建情景记忆模型,并基于认知神经科学提出事件中状态神经元激活及组织机制.其次,基于自适应共振理论(ART)与稀疏分布记忆(SDM)通过Hebbian规则实现情景记忆的自主学习,采用神经元突触势能建立机器人行为控制策略,机器人能够评估过去的事件序列,预测当前状态并规划期望的行为.最后,实验结果验证,该模型框架与控制策略能够实现机器人在普遍场景中的行为控制目标.  相似文献   

7.
受生物体神经内分泌系统调节机制的启发,提出一种神经内分泌计算模型.该模型中,内分泌系统能够对神经系统的学习与记忆行为进行反馈调控,使自主体及时调整行为,从而提高其学习和适应未知环境的能力.为了验证模型及算法的有效性,将其应用于机器人导航避障仿真实验,并与离散Q学习方法对比,结果表明该模型是有效的.  相似文献   

8.
一种基于理性遗传算法(RGA)的协调运动行为合成算法   总被引:2,自引:0,他引:2  
景兴建  王越超 《机器人》2002,24(1):49-54
协调运动行为的合成是实现多机器人系统协调运动的关键.本文针对特定环境下的 多机器人协调运动问题,基于调速避碰的思想,借助CMAC神经网络,来描述各机器人的运动行 为与环境状态之间复杂的、非线性映射关系,利用理性遗传算法来合成与优化各机器人的运 动行为,从而实现多机器人已知环境下,运动行为的相互协调与优化.文章讨论了规划算法的 鲁棒性、完备性及时间复杂度.  相似文献   

9.
未知环境中移动机器人柔性的行为决策是完成各种任务的前提.目前的机器人行为决策方法在面对动态变化的环境时柔性较差,机器人难以获得持续稳定的学习能力.本文作者曾尝试通过集成小脑监督学习和基底神经节的强化学习来实现移动机器人动态环境下的柔性行为决策,但所提算法适应动态环境的能力有限.在前期工作基础上,本文设计了更有生物学意义的好奇度指标代替原来的警觉度指标,通过模拟蓝斑活动在基音模式和阶段模式之间的动态切换,实现移动机器人环境探索–利用的动态自适应调节.同时,设计随外部环境变化的自适应调节因子,实现移动机器人动态环境中基于小脑监督学习和基底神经节强化学习的柔性行为决策,使机器人可以获得持续稳定的学习能力.动态环境和实际环境中的实验结果验证了本文所提算法的有效性.  相似文献   

10.
自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理,然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架,提出了一种基于强化学习和模糊逻辑的学习、规划算法:在对避碰和寻找目标行为进行独立学习后,利用超声波传感器得到的环境信息进行行为选择,使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验,证明了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号