首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
任燚  陈宗海 《计算机仿真》2005,22(10):183-186
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响.在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(result reward),并与优先扫除(prioritized sweeping)的强化学习算法结合作为噪声消解策略.然后与基于结果奖赏的Q学习算法(Q-learning)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能.  相似文献   

2.
王坤  陈卫东 《机器人》2002,24(6):540-544
多移动机器人系统中,随着机器人数目的增加,系统中冲突呈指数级增加,甚至发 生死锁.本文提出一种基于局部感知的排队协调策略,作为机器人之间的协调机制.针对典 型的多机器人群体觅食任务,以计算机仿真为手段,以冲突和时间作为性能指标,进行了实 验研究,结果表明该算法能显著减少冲突、避免死锁,提高系统整体性能,从而体现多机器 人系统的优越性.  相似文献   

3.
基于初等运动的多机器人避碰及死锁预防   总被引:2,自引:0,他引:2  
朱枫  谈大龙 《计算机学报》2001,24(12):1250-1255
该文以一实际应用为背景提出了多移动机器人避碰及死锁预防算法,该算法将机器人的运行环境形式化地描述为初等运动集、冲突图、总任务集及机器人作业集,利用集合论、图论的有关方法及技术实现了多机器人间的避碰与死锁预防。当机器人的运行环境改变时,只需要对相应的集合描述文件进行修改,而不用对程序做任何屐改动。算法的另一个特点是利用避碰算法巧妙地完成了死锁预防。仿真和实际运行证明了该算法高效可靠。  相似文献   

4.
由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法.分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性.结合动作奖赏及动作代价提出一种新的启发函数定义.该启发函数在强调动作重要性以加快学习速度的同时,基于代价函数计算动作选择的代价以减少不必要的探索,从而平稳地提高学习效率.对基于代价函数的动作选择策略进行证明.建立两种仿真场景,将算法用于机器人路径规划的仿真实验.实验结果表明基于状态回溯的启发式强化学习方法能平衡考虑获得的奖赏及付出的代价,有效提高Q学习的收敛速度.  相似文献   

5.
基于蚁群算法的多机器人协作策略   总被引:24,自引:2,他引:24  
丁滢颍  何衍  蒋静坪 《机器人》2003,25(5):414-418
蚁群算法是一种通过对蚂蚁社会长期观察得来的优化算法.它建立在蚁群的一种叫“外激励”的联系方式上,对解决一些分布式控制问题和复杂的优化问题十分有效.将“外激励”这一概念引入多机器人系统中,设计了一种基于蚁群算法的多机器人协作策略.这一策略可以解决多机器人系统在未知环境工作时所面临的一项艰巨的任务:自主协作规划.定义了多机器人系统在未知环境中可能存在的一个问题:任务死锁;将衰减因子引入协作算法,以防止任务死锁的发生;通过仿真验证了算法的性能.  相似文献   

6.
顾国昌  仲宇  张汝波 《机器人》2003,25(4):344-348
在多机器人系统中,评价一个机器人行为的好坏常常依赖于其它机器人的行为,此 时必须采用组合动作以实现多机器人的协作,但采用组合动作的强化学习算法由于学习空间 异常庞大而收敛得极慢.本文提出的新方法通过预测各机器人执行动作的概率来降低学习空 间的维数,并应用于多机器人协作任务之中.实验结果表明,基于预测的加速强化学习算法 可以比原始算法更快地获得多机器人的协作策略.  相似文献   

7.
多机器人动态编队的强化学习算法研究   总被引:8,自引:0,他引:8  
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性.  相似文献   

8.
为实现多机器人系统的动态任务分配与协作,提出了一种面向多机器人动态任务分配的事件驱动免疫网络算法。将生物免疫网络的工作机理应用到多机器人动态任务分配算法中,借鉴Jerne的独特型免疫网络假说和Farmer提出的抗体激励动态方程,设计了多机器人任务分配与自主协作模型;基于事件驱动机制,设计了多机器人动态任务分配算法,并引入焦躁模型来解决任务死锁问题。仿真和实际多机器人系统实验结果表明,基于本文算法的多机器人系统在动态任务场景中具有较强的适应性和自主规划协调能力。  相似文献   

9.
以异构多无人机协同执行复杂的耦合多任务为背景,提出一种求解分布式任务分配问题非死锁的顺序扩展一致性包算法.首先,建立考虑任务载荷资源、任务时序、威胁区等约束条件的时序多任务分配模型;其次,对一致性包算法的任务包构建过程和冲突消解规则进行扩展,并设计一种基于有向图深度优先搜索的方法进行任务方案的死锁检测和修正,以实现无冲突和无死锁的任务分配;然后,将关联任务之间的时序约束转化为软时间窗约束,利用顺序分层的策略进行求解;最后,为了提高任务分配结果的可靠性,采用Dubins曲线路径将航路规划耦合到任务分配中.仿真实验表明,所提出的算法能够快速有效地求解异构多无人机分布式耦合多任务分配问题,具备良好的最优性和时效性.  相似文献   

10.
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。  相似文献   

11.
李春贵 《计算机工程》2005,31(11):13-15
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。  相似文献   

12.
Prioritized Sweeping: Reinforcement Learning with Less Data and Less Time   总被引:2,自引:0,他引:2  
We present a new algorithm,prioritized sweeping, for efficient prediction and control of stochastic Markov systems. Incremental learning methods such as temporal differencing and Q-learning have real-time performance. Classical methods are slower, but more accurate, because they make full use of the observations. Prioritized sweeping aims for the best of both worlds. It uses all previous experiences both to prioritize important dynamic programming sweeps and to guide the exploration of state-space. We compare prioritized sweeping with other reinforcement learning schemes for a number of different stochastic optimal control problems. It successfully solves large state-space real-time problems with which other methods have difficulty.  相似文献   

13.
提出一种考虑虚警概率和漏检概率指标的低复杂度线性扫频干扰检测算法,并对算法性能进行了理论分析,为实际通信系统判断受扰情况提供依据;提出一种基于Q学习的抗扫频干扰算法,可在无线通信系统遭遇扫频干扰时,自主选择最佳通信信道和最长驻留时间。仿真结果表明所提检测算法可有效检测出线性扫频干扰信号,以较低复杂度得到与理论分析结果相近的检测性能。所提抗扫频干扰学习算法可在干扰环境中自主选择通信信道,高效规避扫频干扰,实现持续可靠的信息传输。  相似文献   

14.
强化学习算法中启发式回报函数的设计及其收敛性分析   总被引:3,自引:0,他引:3  
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)  相似文献   

15.
虚网叠加构造自适应路由算法的有效框架   总被引:2,自引:0,他引:2  
大规模并行处理机系统中路由算法对互联网络通信性能和系统性起着重要作用。  相似文献   

16.
多智能体学习中基于知识的强化函数设计方法   总被引:1,自引:0,他引:1  
强化函数的设计是构建多智能体学习系统的一个难点。提出了一种基于知识的强化函数设计方法,根据实际应用的特点,将经验信息和先验知识引入到强化函数中,提高了强化学习的性能。通过在RobotSoccer中的应用和实验,基于知识的强化函数的学习效果要优于传统的强化函数。  相似文献   

17.
The message passing interface (MPI) has become a de facto standard for programming models of highperformance computing, but its rich and flexible interface semantics makes the program easy to generate communication deadlock, which seriously affects the usability of the system. However, the existing detection tools for MPI communication deadlock are not scalable enough to adapt to the continuous expansion of system scale. In this context, we propose a framework for MPI runtime communication deadlock detection, namely MPI-RCDD, which contains three kinds of main mechanisms. Firstly, MPI-RCDD has a message logging protocol that is associated with deadlock detection to ensure that the communication messages required for deadlock analysis are not lost. Secondly, it uses the asynchronous processing thread provided by the MPI to implement the transfer of dependencies between processes, so that multiple processes can participate in deadlock detection simultaneously, thus alleviating the performance bottleneck problem of centralized analysis. In addition, it uses an AND⊕OR model based algorithm named AODA to perform deadlock analysis work. The AODA algorithm combines the advantages of both timeout-based and dependency-based deadlock analysis approaches, and allows the processes in the timeout state to search for a deadlock circle or knot in the process of dependency transfer. Further, the AODA algorithm cannot lead to false positives and can represent the source of the deadlock accurately. The experimental results on typical MPI communication deadlock benchmarks such as Umpire Test Suit demonstrate the capability of MPIRCDD. Additionally, the experiments on the NPB benchmarks obtain the satisfying performance cost, which show that the MPI-RCDD has strong scalability.  相似文献   

18.
This article presents a powerful new algorithm for reinforcement learning in problems where the goals and also the environment may change. The algorithm is completely goal independent, allowing the mechanics of the environment to be learned independently of the task that is being undertaken. Conventional reinforcement learning techniques, such as Q‐learning, are goal dependent. When the goal or reward conditions change, previous learning interferes with the new task that is being learned, resulting in very poor performance. Previously, the Concurrent Q‐Learning algorithm was developed, based on Watkin's Q‐learning, which learns the relative proximity of all states simultaneously. This learning is completely independent of the reward experienced at those states and, through a simple action selection strategy, may be applied to any given reward structure. Here it is shown that the extra information obtained may be used to replace the eligibility traces of Watkin's Q‐learning, allowing many more value updates to be made at each time step. The new algorithm is compared to the previous version and also to DG‐learning in tasks involving changing goals and environments. The new algorithm is shown to perform significantly better than these alternatives, especially in situations involving novel obstructions. The algorithm adapts quickly and intelligently to changes in both the environment and reward structure, and does not suffer interference from training undertaken prior to those changes. © 2005 Wiley Periodicals, Inc. Int J Int Syst 20: 1037–1052, 2005.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号