首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
进化强化学习及其在机器人路径跟踪中的应用   总被引:3,自引:1,他引:2  
研究了一种基于自适应启发评价(AHC)强化学习的移动机器人路径跟踪控制方法.AHC的评价单元(ACE)采用多层前向神经网络来实现.将TD(λ)算法和梯度下降法相结合来更新神经网络的权值.AHC的动作选择单元(ASE)由遗传算法优化的模糊推理系统(FIS)构成.ACE网络的输出构成二次强化信号,用于指导ASE的学习.最后将所提出的算法应用于移动机器人的行为学习,较好地解决了机器人的复杂路径跟踪问题.  相似文献   

2.

研究了一种基于自适应启发评价(AHC)强化学习的移动机器人路径跟踪控制方法.AHC的评价单元(ACE)采用多层前向神经网络来实现,将TD(λ)算法和梯度下降法相结合来更新神经网络的权值.AHC的动作选择单元(ASE)由遗传算法优化的模糊推理系统(FIS)构成.ACE网络的输出构成二次强化信号,用于指导ASE的学习.最后将所提出的算法应用于移动机器人的行为学习,较好地解决了机器人的复杂路径跟踪问题.

  相似文献   

3.
遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值.针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解.改进算法将种群作为与智能体(agent)交互的环境,引入贪心算法对环境进行初始化,使用改进后的交叉与变异运算作为agent的动作空间,将种群的进化过程视为一个整体,以最大化种群进化过程的累计奖励为目标,结合当前种群个体适应度情况,采用基于SAC的策略梯度算法,生成控制种群进化的动作策略,合理运用遗传算法的全局和局部搜索能力,优化种群的进化过程,平衡种群收敛速度与遗传操作次数之间的关系.对TSPLIB实例的实验结果表明,改进的遗传算法可有效地避免陷入局部最优解,在提高种群收敛速度的同时,减少寻优过程的迭代次数.  相似文献   

4.
为了实现两轮机器人的自平衡控制, 利用Skinner操作条件反射机理, 以概率自动机为平台, 融入模糊推理, 构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统. 该学习系统是一个从状态集合到操作行为集合的随机映射, 采用操作条件反射学习机制, 从操作行为集合中随机学习作为控制系统控制信号的最优行为, 并利用学习到的操作行为取向值信息, 调整操作条件反射学习算法. 此外, 学习系统还引入行为熵, 以验证其自学习和自组织能力. 应用于两轮机器人自平衡控制的仿真结果, 验证了模糊OCPA学习系统的可行性.  相似文献   

5.
针对变化和部分未知环境下的移动机器人导航,将示例学习和生命科学中的免疫原理、进化算法相结合,将过去进化过程中的经验(性能好的个体)通过示例表达,提出了一种结合示例学习的移动机器人免疫进化路径规划算法。该算法将示例中的路径片段通过进化机制与免疫操作等其他进化操作所产生的新路径片段相互高效地组合,能够快速地进化出全局(次)最优可行路径。借助仿真实验和一些理论分析,分析了示例学习如何有效地利用过去的经验来解决部分未知和变化环境下的路径规划问题,分析了所构造的免疫算子对算法的影响。  相似文献   

6.
差异工件平行机批调度问题的SAGA*   总被引:2,自引:1,他引:1  
为了求解差异工件平行机批调度问题,提出了一种模拟退火遗传算法 (simulated annealing genetic algorithm,SAGA)。将模拟退火算法(simulated annealing,SA)的状态转移操作引入基于最优保留的遗传算法(genetic algorithm,GA)中,作为局部搜索算子,以避免算法陷入局部最优,也有效地发挥了SA和GA在局部搜索与全局搜索能力方面的优势。为了解决GA迭代后期适应函数难以区分一些适应度接近的个体这个问题,SAGA分两阶段标定适应函数,在进化后期  相似文献   

7.
针对两轮机器人的平衡控制问题,在学习自动机理论的框架中,提出一种基于操作条件反射学习自动机的仿生学习模型.该模型引入认知学习单元和取向单元,分别用来实现操作行为学习和指导系统进化的方向.模拟两轮自平衡机器人的平衡控制仿真实验表明,该学习模型具有可行性和有效性,能使机器人自主学会平衡控制技能,并使其具有高度的自适应能力.  相似文献   

8.
针对移动机器人路径规划避障难和搜索路径等问题,要求机器人从起点到终点能搜索一条最优无碰路.为解决上述问题,提出了一种新的烟花爆炸式免疫算法(FEIA).在免疫遗传算法(IGA)基础上,引入烟花爆炸机制进行种群更新,即在算法进化过程中,当种群达到预设爆炸代数时,从种群中提取若干较优个体和若干较差个体,将较优个体进行邻域扩展,并对扩展结果与较差个体择优进行种群重组.函数优化结果表明,与其它算法相比,FEIA收敛速度更快,搜索精度更高,且能有效地解决早熟收敛问题.而路径规划结果表明,在不同复杂环境中,FEIA能实现机器人的最优路径搜索及避障,显示出较强的搜索能力和鲁棒性.  相似文献   

9.
针对进化算法随机盲目搜索的缺点,提出一种新的自适应梯度信息指导交叉的进化算法.该算法首先利用混沌序列初始化种群,在迭代过程中,根据当前最优个体的梯度信息和种群与个体的聚集程度,自适应地确定最优个体的负梯度方向范围,在该范围内随机选择个体与当前最优个体进行算术交叉操作,使交叉后的个体以较大概率向较好解的方向进化.另外,引入自适应变异算子用于平衡算法的开发和探测能力.几个典型测试函数的实验结果表明,新算法具有较高的收敛精度.  相似文献   

10.
吕莉  赵嘉  孙辉 《计算机应用》2015,35(5):1336-1341
为克服粒子群优化算法进化后期收敛速度慢、易陷入局部最优等缺点,提出一种具有反向学习和自适应逃逸功能的粒子群优化算法.通过设定的阈值,算法将种群进化状态划分为正常状态和"早熟"状态: 若算法处于正常的进化状态,采用标准粒子群优化算法的进化模式;当粒子陷入"早熟"状态,运用反向学习和自适应逃逸功能,对个体最优位置进行反向学习,产生粒子的反向解,增加粒子的反向学习能力,增强算法逃离局部最优的能力,提高算法寻优率.在固定评估次数的情况下,对8个基准测试函数进行仿真,实验结果表明:所提算法在收敛速度、寻优精度和逃离局部最优的能力上明显优于多种经典粒子群优化算法,如充分联系的粒子群优化算法(FIPS)、基于时变加速度系数的自组织分层粒子群优化算法(HPSO-TVAC)、综合学习的粒子群优化算法(CLPSO)、自适应粒子群优化算法(APSO)、双中心粒子群优化算法(DCPSO)和具有快速收敛和自适应逃逸功能的粒子群优化算法(FAPSO)等.  相似文献   

11.
针对现有移动机器人在视觉避障上存在的局限,将深度学习算法和路径规划技术相结合,提出了一种基于深层卷积神经网络和改进Bug算法的机器人避障方法;该方法采用多任务深度卷积神经网络提取道路图像特征,实现图像分类和语义分割任务;其次,基于语义分割结果构建栅格地图,并将图像分类结果与改进的Bug算法相结合,搜索出最优避障路径;同时,为降低冗余计算,设计了特征对比结构来对避免对重复计算的特征信息,保障机器人在实际应用中实时性;通过实验结果表明,所提方法有效的平衡了多视觉任务的精度与效率,并能准确规划出安全的避障路径,辅助机器人完成导航避障。  相似文献   

12.
为了在复杂舞台环境下使用移动机器人实现物品搬运或者载人演出,提出了一种基于深度强化学习的动态路径规划算法。首先通过构建全局地图获取移动机器人周围的障碍物信息,将演员和舞台道具分别分类成动态障碍物和静态障碍物。然后建立局部地图,通过LSTM网络编码动态障碍物信息,使用社会注意力机制计算每个动态障碍物的重要性来实现更好的避障效果。通过构建新的奖励函数来实现对动静态障碍物的不同躲避情况。最后通过模仿学习和优先级经验回放技术来提高网络的收敛速度,从而实现在舞台复杂环境下的移动机器人的动态路径规划。实验结果表明,该网络的收敛速度明显提高,在不同障碍物环境下都能够表现出好的动态避障效果。  相似文献   

13.
To ensure more autonomy and intelligence with real-time processing capabilities for the obstacle avoidance behavior of Intelligent Autonomous Vehicles (IAV), the use of soft computing is necessary to bring this behavior near to that of humans in the recognition, learning, adaptation, generalization, reasoning and decision-making, and action. In this paper, pattern classifiers of spatial obstacle avoidance situations using Neural Networks (NN), Fuzzy Logic (FL), Genetic Algorithms (GA) and Adaptive Resonance Theory (ART) individually or in combination are suggested. These classifiers are based on supervised learning and adaptation paradigms as Gradient Back-Propagation (GBP), FL, GA and Simplified Fuzzy ArtMap (SFAM) resulting in NN/GBP and FL as Intelligent Systems (IS) and in NN/GA, NN/GA-GBP, NN-FL/GBP and NN-FL-ART/SFAM as Hybrid Intelligent Systems (HIS). Afterwards, a synthesis of the suggested pattern classifiers is presented where their results and performances are discussed as well as the Field Programmable Gate Array (FPGA) architectures, characterized by their high flexibility and compactness, for their implementation.  相似文献   

14.
为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互(crowd interaction)对值函数网络做了改进,通过行人角度网格(angel pedestrian grid)对行人之间的交互信息进行提取,并通过注意力机制(attention mechanism)提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为(human spatial behavior)设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。  相似文献   

15.
穿越稠密障碍物的自适应动态窗口法   总被引:1,自引:0,他引:1  
针对应用广泛的局部避障算法-----动态窗口法(DWA)穿越稠密障碍物时存在路径不合理、速度和安全性不能兼顾等问题,提出参数自适应的DWA算法,根据机器人与障碍物距离和障碍物的密集度自动调整目标函数中的权值,以自适应环境的动态变化,从而获得移动机器人的最佳运行速度和合理路径.该方法可明显改善机器人穿越稠密障碍物区域时的性能;同时,该方法还可避免机器人从密集障碍物区域外绕行以及轨迹不平滑现象.仿真实验表明:改进的DWA算法在复杂环境中通过逐步优化可使运行轨迹更加合理,能够同时兼顾路径平滑性和安全性;机器人在离稠密障碍物较远处保持高速,通过狭窄通道或者稠密障碍物区域时速度适当降低,安全性更高,实验中总迭代次数和运行时间可缩短20%以上.  相似文献   

16.
针对在单一学习机制中,移动机器人自主导航一般只适用于静态场景,适应性差的问题,提出一种动态场景自适应导航方法.该方法通过激光测距仪(LRF)获取周围环境的距离信息,在基于增量判别回归(IHDR)算法的单一学习机制导航的基础上,提出了最远距离优先机制的局部避障环节.该导航方法克服了传统导航方法对环境模型的过度依赖,并且本文提出的基于最远距离优先机制的局部避障算法,解决了基于单一学习机制的导航方法对动态场景适应能力不足的问题.本文将动态场景自适应导航方法应用到了MT-R机器人中,与基于单一学习机制的导航方法进行了对比实验,并且运用提出的局部避障算法,对实验中的激光数据进行了算法性能分析.实验结果证实了该方法的可行性,并显示了该方法在动态场景下的良好表现.  相似文献   

17.
一种蚂蚁遗传融合的机器人路径规划新算法   总被引:4,自引:0,他引:4  
针对栅格法建模的不足,本文研究一种全新的蚂蚁算法与遗传算法融合的机器人路径规划算法.该方法首先用栅格法建立机器人运动空间模型,在此基础上利用蚂蚁算法进行全局搜索得到全局导航路径,然后用遗传算法局部调节全局导航路径上的路径点,得到更优路径.计算机仿真实验表明,即使在复杂的环境下,利用本算法也可以规划出一条全局优化路径,且能安全避障.  相似文献   

18.
Path planning and obstacle avoidance are two challenging problems in the study of intelligent robots. In this paper, we develop a new method to alleviate these problems based on deep Q-learning with experience replay and heuristic knowledge. In this method, a neural network has been used to resolve the “curse of dimensionality” issue of the Q-table in reinforcement learning. When a robot is walking in an unknown environment, it collects experience data which is used for training a neural network; such a process is called experience replay. Heuristic knowledge helps the robot avoid blind exploration and provides more effective data for training the neural network. The simulation results show that in comparison with the existing methods, our method can converge to an optimal action strategy with less time and can explore a path in an unknown environment with fewer steps and larger average reward.   相似文献   

19.
为了调正移动机器人避障线路,建立了基于模糊Elman网络算法的移动机器人路径规划模型,并应用进行Matlab仿真分析。利用现有障碍物的距离信息来实现机器人步长的实施可控制与调节,防止移动机器人在做出准确避障行为之后因为没有设定合适的步长而导致撞上障碍物,以0.5作为机器人的最初运动步长。仿真结果表明,采用模糊Elman网络可以获得比其它两种方法更优的路径规划效果,同时对障碍物进行高效避让,由此实现最优的路径规划。采用模糊Elman网络来构建得到的路径规划算法能够满足规划任务的要求,同时还能够根据机器人处于不同工作空间中的情况进行灵活调整。  相似文献   

20.
针对麻雀搜索算法(SSA)在机器人避障研究中,存在提早收敛于局部最优难以跳出、初始种群分布不够广泛、平衡能力差等问题对其进行改进。首先通过三层神经网络对规划环境进行栅格化建模;其次引入Halton序列得到初代种群分布,得到分布更广、更遍历的个体位置,提升后期寻优速度和效率;再次使用布朗运动优化麻雀位置更新的步长调节,帮助算法脱离局部优解,同时平衡全局切换局部的搜索节奏;最后,利用clothoid曲线法平滑路径,得到满足机器人机械性能的路径。经6个标准函数验证和Wilcoxon检验P值对比可知,改进后的算法相较于SSA和CSSA算法各项指标得到明显优化,且具有和SSA同一水平的时间复杂度。最后通过地图仿真得到平滑后的机器人避障路径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号