首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
借鉴内分泌系统对神经系统与遗传系统的高层调节机制,提出了一种新的基于内分泌调节机制的机器人行为规划算法.此算法中机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过一种情感学习模型进行反馈.情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模式又由遗传系统得以继承.该算法有效避免了神经系统复杂的自学习过程。同时也保证机器人有较强的自适应能力.为了验证算法的有效性,本文做了机器人足球队守门员训练的仿真实验,结果也表明该算法具有很强的自适应学习能力.  相似文献   

2.
徐雄 《计算机测量与控制》2007,15(10):1388-1391
人工情感在机器人的研究中至关重要,文中简要概括了当前人工情感的应用;我们在借鉴生物系统控制理论的基础上,融入了进化控制的思想,设计了一种基于人工情感的控制体系结构,在此结构中包含有基于蚁群算法的进化控制系统、神经和人工情感控制系统;机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过情感学习模型进行反馈;情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模块又由进化系统得以继承;该控制结构加强了机器人在动态环境中的学习和自适应能力;为了验证该控制结构的有效性,文章做了仿真实验;仿真结果也表明机器人具有很强的学习和自适应能力.  相似文献   

3.
针对智能体的行为认知问题,提出一种小脑与基底神经节相互协调的行为认知计算模型。该模型核心为操作条件学习算法,包括评价机制、行为选择机制、取向机制及小脑与基底神经节的协调机制。初期的学习信号来自于下橄榄体和黑质两部分,在熵的意义上说明该算法是收敛的。采用该学习方法为自平衡两轮机器人建立运动神经认知系统,利用RBF网络逼近行为和评价网络。仿真实验表明该方法改善仅有基底神经节作用的行为-评价算法学习速度慢和失败次数多的问题,学习后期通过温度的不断降低,加快学习速度,震荡逐渐消失,改善学习效果。  相似文献   

4.
路径规划是移动机器人未知环境探索的关键问题,路径点的合理规划对提高环境探索的效率和环境场预测的准确性至关重要.基于强化学习范式,提出一种适用于静态环境场探索的移动机器人在线信息路径规划方法.针对基于模型训练算法计算成本高的问题,通过机器人与环境的交互作用,采用动作价值评估的方法来学习所获取的环境场历史信息,提高机器人实时规划能力.为了提高环境预测准确性,引入基于置信度上界的动作选择方法来平衡探索未知区域与利用已有信息,鼓励机器人向更多未知区域进行全场特征探索,同时避免因探索区域有限而陷入局部极值.仿真实验中,环境场分别采用高斯分布和Ackley函数模型.结果表明,所提算法能够实现机器人环境探索路径点的在线决策,准确有效地捕捉全场和局部环境特征.  相似文献   

5.
徐雄 《智能系统学报》2008,3(2):135-139
人工情感在机器人的研究中至关重要,简要概括了当前人工情感的应用.在借鉴情感学习控制的理论的基础上,融入了进化控制的思想,设计出了一种基于人工情感的控制体系结构,在此结构中包含有基于遗传算法的进化控制系统、神经和人工情感控制系统.机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过情感学习模型进行反馈.情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模块又由进化系统得以继承.该控制结构加强了机器人在动态环境中的学习和自适应能力.仿真实验验证了该控制结构的有效性,仿真结果也表明机器人具有很强的学习和自适应能力.  相似文献   

6.
任红格  史涛  张瑞成 《机器人》2012,34(3):292-298
针对运动平衡控制问题,提出了一个基于操作条件反射原理的感觉运动系统认知模型,研究了小脑、基底核、大脑皮质以及其它神经器官工作的协同性,构建了感觉运动系统的认知模型.该认知模型主要由小脑和基底核以及大脑皮质组成,其中:小脑通过监督学习实现状态到行为的感觉运动神经映射;基底核利用行为预测评价结果对动作实施基于操作条件反射原理的概率式选择;而大脑皮质接收并发送有用信号给基底核与小脑,形成了感觉运动系统的闭环反馈回路.本文描述了基于操作条件反射原理的感觉运动系统认知模型的具体结构、功能与算法,并在两轮机器人上进行了仿真实验,再现了机器人类似人或动物的自主学习能力和运动平衡技能.结果表明,该模型具有较强的认知特性,使机器人能通过自主学习掌握运动平衡的控制技能.  相似文献   

7.
机器人动态神经网络导航算法的研究和实现   总被引:1,自引:0,他引:1  
针对Pioneer3-DX 移动机器人, 提出了基于强化学习的自主导航策略, 完成了基于动态神经网络的移动机器人导航算法设计. 动态神经网络可以根据机器人环境状态的复杂程度自动地调整其结构, 实时地实现机器人的状态与其导航动作之间的映射关系, 有效地解决了强化学习中状态变量表的维数爆炸问题. 通过对Pioneer3-DX移动机器人导航进行仿真和实物实验, 证明该方法的有效性, 且导航效果明显优于人工势场法.  相似文献   

8.
一种基于免疫原理的自律机器人行为控制算法   总被引:8,自引:1,他引:7  
生物体免疫系统是一个高度复杂的分布协调自适应系统。文章基于免疫学的细胞克隆选择学说和 Jerne网络调节理论,介绍一种人工免疫系统模型及算法,并应用于自律移动机器人的行为控制研究,模拟实验结果表明,该算法能有效增强自律移动机器人在动态环境中的自适应能力。  相似文献   

9.
基于模糊神经网络的强化学习及其在机器人导航中的应用   总被引:5,自引:0,他引:5  
段勇  徐心和 《控制与决策》2007,22(5):525-529
研究基于行为的移动机器人控制方法.将模糊神经网络与强化学习理论相结合,构成模糊强化系统.它既可获取模糊规则的结论部分和模糊隶属度函数参数,也可解决连续状态空间和动作空间的强化学习问题.将残差算法用于神经网络的学习,保证了函数逼近的快速性和收敛性.将该系统的学习结果作为反应式自主机器人的行为控制器,有效地解决了复杂环境中的机器人导航问题.  相似文献   

10.
王东署  赵红燕 《控制与决策》2023,38(11):3112-3120
在环境认知的动态避障过程中,除了预期不确定性事件,移动机器人还可能会遇到非预期不确定性事件.如何高效、灵活地应对非预期不确定性事件是移动机器人动态避障中面临的一个重要挑战.目前关于这方面的研究相对较少,且基于这些研究的移动机器人普遍缺乏自主学习能力,难以快速、灵活地应对突变的外部环境.鉴于此,首先,设计一个新的碰撞危险度指标,该指标不仅考虑障碍物的距离,同时也考虑障碍物速度对移动机器人运动的影响.模拟人脑中乙酰胆碱和去甲肾上腺素在应对环境不确定性时的反应机理,通过碰撞危险度指标引导移动机器人的注意力网络在关注预期刺激的背侧注意力网络和关注新刺激的腹侧注意网络之间切换,使得机器人灵活应对环境中的不确定性事件;然后,设计新的神经元学习率,以增强调节发育网络隐含层神经元的学习能力,提高机器人应对突变环境的快速响应能力;接着,修改突触权值更新规则,以提高移动机器人行为决策的准确性;最后,通过在两种不同场景下的仿真实验以及物理环境中的实验,验证所提出的应对环境中非预期不确定性事件的移动机器人调节发育学习方法的可行性.  相似文献   

11.
《Advanced Robotics》2013,27(1):83-99
Reinforcement learning can be an adaptive and flexible control method for autonomous system. It does not need a priori knowledge; behaviors to accomplish given tasks are obtained automatically by repeating trial and error. However, with increasing complexity of the system, the learning costs are increased exponentially. Thus, application to complex systems, like a many redundant d.o.f. robot and multi-agent system, is very difficult. In the previous works in this field, applications were restricted to simple robots and small multi-agent systems, and because of restricted functions of the simple systems that have less redundancy, effectiveness of reinforcement learning is restricted. In our previous works, we had taken these problems into consideration and had proposed new reinforcement learning algorithm, 'Q-learning with dynamic structuring of exploration space based on GA (QDSEGA)'. Effectiveness of QDSEGA for redundant robots has been demonstrated using a 12-legged robot and a 50-link manipulator. However, previous works on QDSEGA were restricted to redundant robots and it was impossible to apply it to multi mobile robots. In this paper, we extend our previous work on QDSEGA by combining a rule-based distributed control and propose a hybrid autonomous control method for multi mobile robots. To demonstrate the effectiveness of the proposed method, simulations of a transportation task by 10 mobile robots are carried out. As a result, effective behaviors have been obtained.  相似文献   

12.
自主机器人的强化学习研究进展   总被引:9,自引:1,他引:8  
陈卫东  席裕庚  顾冬雷 《机器人》2001,23(4):379-384
虽然基于行为控制的自主机器人具有较高的鲁棒性,但其对于动态环境缺乏必要的自 适应能力.强化学习方法使机器人可以通过学习来完成任务,而无需设计者完全预先规定机 器人的所有动作,它是将动态规划和监督学习结合的基础上发展起来的一种新颖的学习方法 ,它通过机器人与环境的试错交互,利用来自成功和失败经验的奖励和惩罚信号不断改进机 器人的性能,从而达到目标,并容许滞后评价.由于其解决复杂问题的突出能力,强化学习 已成为一种非常有前途的机器人学习方法.本文系统论述了强化学习方法在自主机器人中的 研究现状,指出了存在的问题,分析了几种问题解决途径,展望了未来发展趋势.  相似文献   

13.
Robust motion control is fundamental to autonomous mobile robots. In the past few years, reinforcement learning (RL) has attracted considerable attention in the feedback control of wheeled mobile robot. However, it is still difficult for RL to solve problems with large or continuous state spaces, which is common in robotics. To improve the generalization ability of RL, this paper presents a novel hierarchical RL approach for optimal path tracking of wheeled mobile robots. In the proposed approach, a graph Laplacian-based hierarchical approximate policy iteration (GHAPI) algorithm is developed, in which the basis functions are constructed automatically using the graph Laplacian operator. In GHAPI, the state space of an Markov decision process is divided into several subspaces and approximate policy iteration is carried out on each subspace. Then, a near-optimal path-tracking control strategy can be obtained by GHAPI combined with proportional-derivative (PD) control. The performance of the proposed approach is evaluated by using a P3-AT wheeled mobile robot. It is demonstrated that the GHAPI-based PD control can obtain better near-optimal control policies than previous approaches.  相似文献   

14.
单个微小型机器人由于自身能力的限制,因此必须多个机器人联合起来才可以完 成指定的任务,所以机器人之间的协作在微操作领域就显得尤其重要。该文利用增强式的 学 习方法,使得微小型机器人具有一定的学习能力,增强了对不确定环境的适应性,并采 用了 一种基于行为的群体自主式微小移动机器人的协作结构,用于机器人的故障排除,仿 真结果 说明了这种体系结构的有效性。  相似文献   

15.
随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考.  相似文献   

16.

Deep reinforcement learning has the advantage of being able to encode fairly complex behaviors by collecting and learning empirical information. In the current study, we have proposed a framework for reinforcement learning in decentralized collision avoidance where each agent independently makes its decision without communication with others. In an environment exposed to various kinds of dynamic obstacles with irregular movements, mobile robot agents could learn how to avoid obstacles and reach a target point efficiently. Moreover, a path planner was integrated with the reinforcement learning-based obstacle avoidance to solve the problem of not finding a path in a specific situation, thereby imposing path efficiency. The robots were trained about the policy of obstacle avoidance in environments where dynamic characteristics were considered with soft actor critic algorithm. The trained policy was implemented in the robot operating system (ROS), tested in virtual and real environments for the differential drive wheel robot to prove the effectiveness of the proposed method. Videos are available at https://youtu.be/xxzoh1XbAl0.

  相似文献   

17.
为了在复杂舞台环境下使用移动机器人实现物品搬运或者载人演出,提出了一种基于深度强化学习的动态路径规划算法。首先通过构建全局地图获取移动机器人周围的障碍物信息,将演员和舞台道具分别分类成动态障碍物和静态障碍物。然后建立局部地图,通过LSTM网络编码动态障碍物信息,使用社会注意力机制计算每个动态障碍物的重要性来实现更好的避障效果。通过构建新的奖励函数来实现对动静态障碍物的不同躲避情况。最后通过模仿学习和优先级经验回放技术来提高网络的收敛速度,从而实现在舞台复杂环境下的移动机器人的动态路径规划。实验结果表明,该网络的收敛速度明显提高,在不同障碍物环境下都能够表现出好的动态避障效果。  相似文献   

18.
One of the main problems of robots is the lack of adaptability and the need for adjustment every time the robot changes its working place. To solve this, we propose a learning approach for mobile robots using a reinforcement-based strategy and a dynamic sensor-state mapping. This strategy, practically parameterless, minimises the adjustments needed when the robot operates in a different environment or performs a different task.Our system will simultaneously learn the state space and the action to execute on each state. The learning algorithm will attempt to maximise the time before a robot failure in order to obtain a control policy suited to the desired behaviour, thus providing a more interpretable learning process. The state representation will be created dynamically, starting with an empty state space and adding new states as the robot finds new situations that has not seen before. A dynamic creation of the state representation will avoid the classic, error-prone and cyclic process of designing and testing an ad hoc representation. We performed an exhaustive study of our approach, comparing it with other classic strategies. Unexpectedly, learning both perception and action does not increase the learning time.  相似文献   

19.
自主式微小型移动机器人的自动避障行为研究   总被引:2,自引:0,他引:2  
李小海  程君实  陈佳品 《机器人》2001,23(3):234-237
针对多微小型移动机器人工作环境的模型未知或不确定,以及该机器人本身 的某些限制,采用基于行为的研究方法,实现了自行设计的自主式微小型移动机器人在未知 、动态环境中的自动避障,设计了该机器人的障碍物回避行为,采用了电机神经元网络选择 机器人的自动避障动作,并用增强式学习的动作评判结果在线修改网络的权值,结合机器人 的漫步行为,采用机器人的安全漫步任务验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号