期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 总被引：1，自引：0，他引：1

顾国昌仲宇张汝波《机器人》2003,25(4):344-348

在多机器人系统中，评价一个机器人行为的好坏常常依赖于其它机器人的行为，此时必须采用组合动作以实现多机器人的协作，但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢．本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数，并应用于多机器人协作任务之中．实验结果表明，基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略．相似文献

2.

一种共享经验元组的多agent协同强化学习算法

王长缨尹晓虎鲍翊平姚莉《模式识别与人工智能》2005,18(2)

Q学习算法是一种最受欢迎的模型无关强化学习算法.本文通过对Q学习算法进行合适的扩充,提出了一种适合于多agent协作团队的共享经验元组的多agent协同强化学习算法,其中采用一种新的状态行为的知识表示方法使得状态行为空间得到缩减,采用相似性变换和经验元组的共享使得学习的效率得到提高.最后将该算法应用于猎人捕物问题域.实验结果表明该算法能够加快多个猎人合作抓捕猎物的进程,有利于协作任务的成功执行,并能提高多agent协作团队的协作效率,因此该算法是有效的. 相似文献

3.

动作预测在多机器人强化学习协作中的应用

下载免费PDF全文

曹洁朱宁宁《计算机工程与应用》2013,49(8):257-260

在多机器人系统中,协作环境探索的强化学习的空间规模是机器人个数的指数函数,学习空间非常庞大造成收敛速度极慢。为了解决这个问题,将基于动作预测的强化学习方法及动作选择策略应用于多机器人协作研究中,通过预测机器人可能执行动作的概率以加快学习算法的收敛速度。实验结果表明,基于动作预测的强化学习方法能够比原始算法更快速地获取多机器人的协作策略。相似文献

4.

基于评价选择策略的Internet多机器人协作控制研究

李响王越超《计算机工程与应用》2007,43(36):1-3

针对Internet多机器人系统中存在的操作指令延迟、工作效率低、协作能力差等问题,提出了多机器人神经元群网络控制模型。在学习过程中,来自不同功能区域的多类型神经元连接形成动态神经元群集,来描述各机器人的运动行为与外部条件、内部状态之间复杂的映射关系,通过对内部权值连接的评价选择,以实现最佳的多机器人运动行为协调。以互联网足球机器人系统为实验平台,给出了学习算法描述。仿真结果表明,己方机器人成功实现了配合射门的任务要求,所提模型和方法提高了多机器人的协作能力,并满足系统稳定性和实时性要求。相似文献

5.

基于一种蚁群算法的多机器人动态感知任务分配 总被引：1，自引：0，他引：1

姜健臧希喆闫继宏赵杰《机器人》2008,30(3):1-259

多机器人系统在具有任务聚集特征的动态感知任务环境下执行搜集任务时,存在着由于任务分配不当而引起的冲突加剧问题.针对这一问题,提出了一种基于排斥信息素型蚁群算法的多机器人任务自主分配方法.进行了未知非结构化环境下的多机器人协作搜集仿真实验.仿真结果表明,采用本文所提方法可以实现多机器人搜集任务的自主分配,有效减少机器人的空间冲突,尤其在机器人数量较多的情况下,更能显示出该方法的优势. 相似文献

6.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

7.

基于任务空间网格分割的强化学习算法

祖立鹏王文学《小型微型计算机系统》2023,(12):2633-2639

强化学习中设计合理的奖励函数具有重要的意义，但这也是具有挑战性的，尤其是在实际机器人控制任务中.因此，能够在稀疏奖励的环境中探索有效的强化学习算法是当前持续关注的问题.目前虽然已经有许多在稀疏奖励下的强化学习算法研究，但从结果来看，这些算法在机器人的控制精度以及训练时间等方面均需要很大程度的优化和提升.本文提出了一种基于任务空间网格分割的强化学习算法，能够在稀疏奖励函数下，以较快的训练速度实现较高控制精度的机器人的任务成功率.该算法首先优化行为克隆损失函数梯度的系数，来获得更快的训练收敛效果；随后基于任务空间分割的策略获取优质示范样本补充到示范样本库中来实现更高的任务成功率.仿真实验结果表明，该算法在机械臂抓取控制任务中能够有效地提高训练速度和任务成功率，在5mm控制精度要求下平均任务成功率可达到90%以上. 相似文献

8.

强化学习在足球机器人基本动作学习中的应用 总被引：1，自引：0，他引：1

段勇杨淮清崔宝侠徐心和《机器人》2008,30(5):1

主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用．强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛．针对这一问题,提出了基于T-S 模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射．此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题．最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要．相似文献

9.

基于人工神经网络的多机器人协作学习研究 总被引：5，自引：0，他引：5

韩学东洪炳熔《计算机工程与设计》2002,23(6):1-3

机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域，它是一个典型的多智能体系统。文中主要研究机器人足球比赛中的协作行为的学习问题，采用人工神经网络算法实现了两个足球机器人的传球学习，实验结果表明了该方法的有效性。最后讨论了对BP算法的诸多改进方法。相似文献

10.

多智能体强化学习及其在足球机器人角色分配中的应用 总被引：2，自引：0，他引：2

段勇崔宝侠徐心和《控制理论与应用》2009,26(4):371-376

足球机器人系统是一个典型的多智能体系统, 每个机器人球员选择动作不仅与自身的状态有关, 还要受到其他球员的影响, 因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作. 本文研究了基于智能体动作预测的多智能体强化学习算法, 使用朴素贝叶斯分类器来预测其他智能体的动作. 并引入策略共享机制来交换多智能体所学习的策略, 以提高多智能体强化学习的速度. 最后, 研究了所提出的方法在足球机器人动态角色分配中的应用, 实现了多机器人的分工和协作. 相似文献

11.

Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning

Xueqing SUN Tao MAO Laura RAY Dongqing SHI Jerald KRALIK 《控制理论与应用(英文版)》2011,9(3):440-450

A primary challenge of agent-based policy learning in complex and uncertain environments is escalating computational complexity with the size of the task space(action choices and world states) and the number of agents.Nonetheless,there is ample evidence in the natural world that high-functioning social mammals learn to solve complex problems with ease,both individually and cooperatively.This ability to solve computationally intractable problems stems from both brain circuits for hierarchical representation of state and action spaces and learned policies as well as constraints imposed by social cognition.Using biologically derived mechanisms for state representation and mammalian social intelligence,we constrain state-action choices in reinforcement learning in order to improve learning efficiency.Analysis results bound the reduction in computational complexity due to stateion,hierarchical representation,and socially constrained action selection in agent-based learning problems that can be described as variants of Markov decision processes.Investigation of two task domains,single-robot herding and multirobot foraging,shows that theoretical bounds hold and that acceptable policies emerge,which reduce task completion time,computational cost,and/or memory resources compared to learning without hierarchical representations and with no social knowledge. 相似文献

12.

Evolutionary Development of Hierarchical Learning Structures

Elfwing S. Uchibe E. Doya K. Christensen H.I. 《Evolutionary Computation, IEEE Transactions on》2007,11(2):249-264

Hierarchical reinforcement learning (RL) algorithms can learn a policy faster than standard RL algorithms. However, the applicability of hierarchical RL algorithms is limited by the fact that the task decomposition has to be performed in advance by the human designer. We propose a Lamarckian evolutionary approach for automatic development of the learning structure in hierarchical RL. The proposed method combines the MAXQ hierarchical RL method and genetic programming (GP). In the MAXQ framework, a subtask can optimize the policy independently of its parent task's policy, which makes it possible to reuse learned policies of the subtasks. In the proposed method, the MAXQ method learns the policy based on the task hierarchies obtained by GP, while the GP explores the appropriate hierarchies using the result of the MAXQ method. To show the validity of the proposed method, we have performed simulation experiments for a foraging task in three different environmental settings. The results show strong interconnection between the obtained learning structures and the given task environments. The main conclusion of the experiments is that the GP can find a minimal strategy, i.e., a hierarchy that minimizes the number of primitive subtasks that can be executed for each type of situation. The experimental results for the most challenging environment also show that the policies of the subtasks can continue to improve, even after the structure of the hierarchy has been evolutionary stabilized, as an effect of Lamarckian mechanisms 相似文献

13.

基于梯度的重叠式层次社区检测

王寒蕊丁岱宗张谧《计算机系统应用》2021,30(8):207-212

社区检测(community detection)任务一直是数据挖掘领域的一个研究热点,近年来,深度学习和图链接数据呈现出多样化和复杂化的发展趋势,层次(Hierarchical)社区检测逐渐成为研究的焦点.层次社区检测任务的目标是,在将同质图中相似的节点聚集到社区中的同时,学习社区之间的层次结构关系,以更好的理解图数据结构.社区间层次关系的引入给社区检测算法带来了更复杂的建模挑战.针对该任务,已经有一些有效的启发式的方法被提出,但是受限于社区分布形态的简单假设和离散的优化学习方式,它们无法描述更复杂的图链路数据,也无法和其它有效的连续优化算法组合获得更好的结果.为了解决这个问题,本文首次尝试建模复杂的重叠式(overlapping)层次社区结构,提出简洁的节点嵌入和社区检测双任务优化模型,通过梯度更新的方式来灵活地探索节点和重叠式层次社区的隶属关系.在学习过程中,我们可以分别获得节点和社区的嵌入表示,以应用于丰富的下游任务. 相似文献

14.

Reinforcement Learning in the Multi-Robot Domain 总被引：20，自引：4，他引：16

Maja J. Matarić 《Autonomous Robots》1997,4(1):73-83

This paper describes a formulation of reinforcement learning that enables learning in noisy, dynamic environments such as in the complex concurrent multi-robot learning domain. The methodology involves minimizing the learning space through the use of behaviors and conditions, and dealing with the credit assignment problem through shaped reinforcement in the form of heterogeneous reinforcement functions and progress estimators. We experimentally validate the approach on a group of four mobile robots learning a foraging task. 相似文献

15.

基于多智能体的Option自动生成算法 总被引：2，自引：0，他引：2

沈晶顾国昌刘海波《智能系统学报》2006,1(1):84-87

目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option. 以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法. 相似文献

16.

迭代学习控制的指数变增益加速学习算法及其在机器人控制上的应用

詹炜《微计算机应用》2007,28(7):678-681

迭代学习控制作为智能控制的一个分支，近年来得到了很大的发展，在各个领域都有广泛的运用。为提高迭代学习速度，本文给出了指数变增益加速算法。机器人系统的仿真结果表明，该方法能大大提高学习速度，具有良好的控制性能。相似文献

17.

多机器人动态编队的强化学习算法研究 总被引：8，自引：0，他引：8

王醒策张汝波顾国昌《计算机研究与发展》2003,40(10):1444-1450

在人工智能领域中，强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注．随着分布式人工智能中多智能体理论的不断发展，分布式强化学习算法逐渐成为研究的重点．首先介绍了强化学习的研究状况，然后以多机器人动态编队为研究模型，阐述应用分布式强化学习实现多机器人行为控制的方法．应用SOM神经网络对状态空间进行自主划分，以加快学习速度；应用BP神经网络实现强化学习，以增强系统的泛化能力；并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益．为了明确控制任务，系统使用黑板通信方式进行分层控制．最后由仿真实验证明该方法的有效性．相似文献

18.

A self-organizing HCMAC neural-network classifier 总被引：3，自引：0，他引：3

Hahn-Ming Lee Chih-Ming Chen Yung-Feng Lu 《Neural Networks, IEEE Transactions on》2003,14(1):15-27

This paper presents a self-organizing hierarchical cerebellar model arithmetic computer (HCMAC) neural-network classifier, which contains a self-organizing input space module and an HCMAC neural network. The conventional CMAC can be viewed as a basis function network (BFN) with supervised learning, and performs well in terms of its fast learning speed and local generalization capability for approximating nonlinear functions. However, the conventional CMAC has an enormous memory requirement for resolving high-dimensional classification problems, and its performance heavily depends on the approach of input space quantization. To solve these problems, this paper presents a novel supervised HCMAC neural network capable of resolving high-dimensional classification problems well. Also, in order to reduce what is often trial-and-error parameter searching for constructing memory allocation automatically, proposed herein is a self-organizing input space module that uses Shannon's entropy measure and the golden-section search method to appropriately determine the input space quantization according to the various distributions of training data sets. Experimental results indicate that the self-organizing HCMAC indeed has a fast learning ability and low memory requirement. It is a better performing network than the conventional CMAC for resolving high-dimensional classification problems. Furthermore, the self-organizing HCMAC classifier has a better classification ability than other compared classifiers. 相似文献

19.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

20.

基于改进粒子群的快速碰撞检测算法研究

沈学利王瑞新《计算机工程与应用》2016,52(22):49-54

针对碰撞检测算法精度低、实时性差等问题,提出了一种基于改进粒子群的快速碰撞检测算法。将粒子群优化算法引入到随机碰撞检测问题中,通过混合层次包围盒缩小粒子搜索空间。利用特征采样将虚拟空间内复杂的碰撞检测转换为二维离散空间中的搜索问题。算法对标准粒子群方程进行了优化处理,通过去除速度项来加快算法后期的收敛速度,在算法中引入高斯扰动缩短粒子跳出局部最优的时间,有效提高了算法的精度。通过实验验证,该算法具有较高的精度、实时性好,能够满足碰撞检测的应用要求。相似文献