首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
基于模糊神经网络的强化学习及其在机器人导航中的应用   总被引:5,自引:0,他引:5  
段勇  徐心和 《控制与决策》2007,22(5):525-529
研究基于行为的移动机器人控制方法.将模糊神经网络与强化学习理论相结合,构成模糊强化系统.它既可获取模糊规则的结论部分和模糊隶属度函数参数,也可解决连续状态空间和动作空间的强化学习问题.将残差算法用于神经网络的学习,保证了函数逼近的快速性和收敛性.将该系统的学习结果作为反应式自主机器人的行为控制器,有效地解决了复杂环境中的机器人导航问题.  相似文献   

2.
考虑到石油管道的封闭性和复杂性,很难识别环境特征,将基于模糊神经网络的多传感器信息融合用于解决管道中管道机器人的导航问题。采用CCD摄像头和距离传感器来识别管道中的障碍物和弯道,并根据环境信息制定控制决策。建立了机器人物理模型和模糊神经网络拓扑结构,并对神经网络进行了学习训练。最后,对其中一种环境类型进行了仿真验证,证实了算法的有效性。  相似文献   

3.
机器人因其高效的感知、决策和执行能力,在人工智能、信息技术和智能制造等领域中具有巨大的应用价值。目前,机器人学习与控制已成为机器人研究领域的重要前沿技术之一。各种基于神经网络的智能算法被设计,从而为机器人系统提供同步学习与控制的规划框架。首先从神经动力学(ND)算法、前馈神经网络(FNNs)、递归神经网络(RNNs)和强化学习(RL)四个方面介绍了基于神经网络的机器人学习与控制的研究现状,回顾了近30年来面向机器人学习与控制的智能算法和相关应用技术。最后展望了该领域存在的问题和发展趋势,以期促进机器人学习与控制理论的推广及应用场景的拓展。  相似文献   

4.
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学...  相似文献   

5.
小波神经网络在两足步行机器人爬斜坡中的应用   总被引:3,自引:0,他引:3  
张克  傅佩琛  强文义 《机器人》2000,22(5):384-389
针对传统的神经网络中神经元模型在结构和信息存 储能力上存在的不足,本文提出了一种基于广义小波基函数网络的神经元集聚模型.这种小 波神经网络不仅收敛速度快,非线性逼近能力更好,而且具有内部结构变尺度、自适应调整 和广义信息存储等智能化特点,更符合生物原型的实际情况.静态学习和准动态学习仿真实 验证明这种神经网络结构的有效性.  相似文献   

6.
7.
机器人导航面临的一个基本问题是路径规划.本文提出采用单步方向的方式来实现全局地理路径信息的存储和查询,这使得在资源受限、计算能力弱的无线传感器节点上实现大数据量信息的分布式存储成为可能.本文进而采用计数型Bloom Fiher来对路径信息进行压缩存储,同时可以实现路径信息的动态修改.本文随后针对计数型Bloom Filter进行了分析,并通过实验指出了已有的关于Bloom Fiher的研究中存在的一些错误.  相似文献   

8.
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。  相似文献   

9.
强化学习在移动机器人自主导航中的应用   总被引:1,自引:1,他引:1       下载免费PDF全文
概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。  相似文献   

10.
深度记忆网络研究进展   总被引:3,自引:0,他引:3  
近年来,随着深度神经网络的快速发展,它在越来越多的领域中有了广泛的应用.深度神经网络模型在处理有序列依赖关系的预测问题时,需要利用之前学习到的信息进行记忆.在一般的神经网络模型中,数据经过多个神经元节点传输会损失很多关键的信息,因此需要具有记忆能力的神经网络模型,我们把它们统称为记忆网络.本文首先介绍了记忆网络的基础模...  相似文献   

11.
机器人动态神经网络导航算法的研究和实现   总被引:1,自引:0,他引:1  
针对Pioneer3-DX 移动机器人, 提出了基于强化学习的自主导航策略, 完成了基于动态神经网络的移动机器人导航算法设计. 动态神经网络可以根据机器人环境状态的复杂程度自动地调整其结构, 实时地实现机器人的状态与其导航动作之间的映射关系, 有效地解决了强化学习中状态变量表的维数爆炸问题. 通过对Pioneer3-DX移动机器人导航进行仿真和实物实验, 证明该方法的有效性, 且导航效果明显优于人工势场法.  相似文献   

12.
For mobile robot navigation in an unknown and changing environment, a reactive approach is both simple to implement and fast in response. A neural net can be trained to exhibit such a behaviour. The advantage is that, it relates the desired motion directly to the sensor inputs, obviating the need of modeling and planning. In this work, a feedforward neural net is trained to output reactive motion in response to ultrasonic range inputs, with data generated artificially on the computer screen. We develop input and output representations appropriate to this problem.A purely reactive robot, being totally insensitive to context, often gets trapped in oscillations in front of a wide object. To overcome this problem, we introduce a notion of memory into the net by including context units at the input layer. We describe the mode of training for such a net and present simulated runs of a point robot under the guidance of the trained net in various situations. We also train a neural net for the navigation of a mobile robot with a finite turning radius. The results of the numerous test runs of the mobile robot under the control of the trained neural net in simulation as well as in experiments carried out in the laboratory, are reported in this paper.  相似文献   

13.
针对具有未知动态的电驱动机器人,研究其自适应神经网络控制与学习问题.首先,设计了稳定的自适应神经网络控制器,径向基函数(RBF)神经网络被用来逼近电驱动机器人的未知闭环系统动态,并根据李雅普诺夫稳定性理论推导了神经网络权值更新律.在对回归轨迹实现跟踪控制的过程中,闭环系统内部信号的部分持续激励(PE)条件得到满足.随着PE条件的满足,设计的自适应神经网络控制器被证明在稳定的跟踪控制过程中实现了电驱动机器人未知闭环系统动态的准确逼近.接着,使用学过的知识设计了新颖的学习控制器,实现了闭环系统稳定、改进了控制性能.最后,通过数字仿真验证了所提控制方法的正确性和有效性.  相似文献   

14.
The fuzzy min-max neural network constitutes a neural architecture that is based on hyperbox fuzzy sets and can be incrementally trained by appropriately adjusting the number of hyperboxes and their corresponding volumes. Two versions have been proposed: for supervised and unsupervised learning. In this paper a modified approach is presented that is appropriate for reinforcement learning problems with discrete action space and is applied to the difficult task of autonomous vehicle navigation when no a priori knowledge of the enivronment is available. Experimental results indicate that the proposed reinforcement learning network exhibits superior learning behavior compared to conventional reinforcement schemes.  相似文献   

15.
针对现有的神经网络后门攻击研究工作,首先介绍了神经网络后门攻击的相关概念;其次,从研究发展历程、典型工作总结、分类情况3个方面对神经网络后门攻击研究现状进行了说明;然后,对典型的后门植入策略进行了详细介绍;最后,对研究现状进行了总结并对未来的研究趋势进行了展望.  相似文献   

16.
目的 基于物理的烟雾模拟是计算机图形学的重要组成部分,渲染具有细小结构的高分辨率烟雾,需要大量的计算资源和高精度的数值求解方法。针对目前高精度湍流烟雾模拟速度慢,仿真困难的现状,提出了基于字典神经网络的方法,能够快速合成湍流烟雾,使得合成的结果增加细节的同时,保持高分辨率烟雾结果的重要结构信息。方法 使用高精度的数值仿真求解方法获得高分辨率和低分辨率的湍流烟雾数据,通过采集速度场局部块及相应的空间位置信息和时间特征生成数据集, 设计字典神经网络的网络架构,训练烟雾高频成分字典预测器,在GPU(graphic processing unit)上实现并行化,快速合成高分辨率的湍流烟雾结果。结果 实验表明,基于字典神经网络的方法能够在非常低分辨率的烟雾数据下合成空间和时间上连续的高分辨率湍流烟雾结果,效率比通过在GPU平台上直接仿真得到高分辨率湍流烟雾的结果快了一个数量级,且合成的烟雾结果与数值仿真方法得到的高分辨率湍流烟雾结果足够接近。结论 本文方法解决了烟雾的上采样问题,能够从非常低分辨率的烟雾仿真结果,通过设计基于字典神经网络结构以及特征描述符编码烟雾速度场的局部和全局信息,快速合成高分辨率湍流烟雾结果,且保持高精度烟雾的细节,与数值仿真方法的对比表明了本文方法的有效性。  相似文献   

17.
In an environment where robots coexist with humans, mobile robots should be human-aware and comply with humans' behavioural norms so as to not disturb humans' personal space and activities. In this work, we propose an inverse reinforcement learning-based time-dependent A* planner for human-aware robot navigation with local vision. In this method, the planning process of time-dependent A* is regarded as a Markov decision process and the cost function of the time-dependent A* is learned using the inverse reinforcement learning via capturing humans' demonstration trajectories. With this method, a robot can plan a path that complies with humans' behaviour patterns and the robot's kinematics. When constructing feature vectors of the cost function, considering the local vision characteristics, we propose a visual coverage feature for enabling robots to learn from how humans move in a limited visual field. The effectiveness of the proposed method has been validated by experiments in real-world scenarios: using this approach robots can effectively mimic human motion patterns when avoiding pedestrians; furthermore, in a limited visual field, robots can learn to choose a path that enables them to have the larger visual coverage which shows a better navigation performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号