共查询到20条相似文献,搜索用时 46 毫秒
1.
多智能体强化学习及其在足球机器人角色分配中的应用 总被引:2,自引:0,他引:2
足球机器人系统是一个典型的多智能体系统, 每个机器人球员选择动作不仅与自身的状态有关, 还要受到其他球员的影响, 因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作. 本文研究了基于智能体动作预测的多智能体强化学习算法, 使用朴素贝叶斯分类器来预测其他智能体的动作. 并引入策略共享机制来交换多智能体所学习的策略, 以提高多智能体强化学习的速度. 最后, 研究了所提出的方法在足球机器人动态角色分配中的应用, 实现了多机器人的分工和协作. 相似文献
2.
仿真机器人足球学习方法研究综述 总被引:6,自引:0,他引:6
仿真机器人足球赛是近几年在国际上迅速开展起来的高技术对抗活动,虽然历史不长,但由于它集高新技术、娱乐比赛于一体,所以引起了人们的广泛关注和极大兴趣。作为多智能体系统研究的重要手段,许多研究者从不同的侧面对该项技术进行了研究并取得了一定的成果。对仿真机器人足球系统的研究,目前包括系统组织结构设计、多智能体结构及协调机制研究、智能体技能学习和对手模型预测等内容。该文从多智能体学习和协作的角度对有关机器人足球的学习方法进行了介绍和评述。 相似文献
3.
RoboCup机器人足球比赛是当前人工智能领域的一个研究热点,其目的在于为多智能体系统提供一个标准的研究平台.为了让RoboCup仿真比赛中球员智能体实时地作出合理的动作决策,提出一种基于动作序列模型的决策机制,通过对球员智能体的动作空间分解、建立动作序列并对动作序列进行评价,而让智能体选择出当前最优的动作执行.仿真结果表明应用这种决策机制提高了智能体对环境的适应性. 相似文献
4.
5.
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。 相似文献
6.
多智能体足球机器人策略研究 总被引:1,自引:0,他引:1
机器人足球比赛的策略是进行机器人足球比赛的最根本的要素.通过对一个在实际仿真机器人足球比赛时使用的策略在FIRA机器人足球比赛5 VS 5仿真平台上的仿真,实现多个智能体机器人相互配合来完成进球的任务.分析了部分策略的实现方式,归纳了不同位置的智能体机器人在使用不同的策略时相互之间的协作关系.仿真结果表明多了该智能体机器人的仿真足球策略要更胜一筹. 相似文献
7.
基于局部合作的RoboCup多智能体Q-学习 总被引:2,自引:0,他引:2
针对多智能体Q-学习中存在的联合动作指数级增长问题,采用-种局部合作的Q-学习方法,在智能体之间有协作时才考察联合动作,否则只进行简单的个体智能体的Q-学习,从而减少学习时所要考察的状态-动作对值。在机器人足球仿真2D平台上进行的实验表明,该方法比常用多智能体强化学习技术具有更高的效率。 相似文献
8.
自适应模糊RBF神经网络的多智能体机器人强化学习 总被引:3,自引:0,他引:3
多机器人环境中的学习,由于机器人所处的环境是连续状态,连续动作,而且包含多个机器人,因此学习空间巨大,直接应用Q学习算法难以获得满意的结果。文章研究中针对多智能体机器人系统的学习问题,提出自适应模糊RBF神经网络强化学习算法,网络本身具有模糊推理能力、较强的函数逼近能力以及泛化能力,因此,实现了人类专家知识与机器学习方法的结合,减少学习问题的复杂度;实现连续状态空间与动作空间的策略学习。 相似文献
9.
机器人足球比赛策略仿真系统的开发 总被引:10,自引:1,他引:9
多智能体系统(Multi-AgentSystem)是近来在智能机器人领域兴起的一个新课题。它主要研究多机器人在各种不利的环境条件下,如何相互配合和合作来达到某一目的。微机器人世界杯足球比赛(MIROSOT)为研究多智能体系统提供既经济又典型的实验场地。本文主要讨论机器人足球比赛所必需的比赛策略及其计算机仿真。本文首先描述了机器人足球比赛几何建模与动态建模,其次提出足球机器人的基本行为与动作仿真,最后讨论了机器人足球比赛策略及其计算机仿真。 相似文献
10.
11.
12.
足球机器人系统是国际上标准的多智能体动作行为的研究平台,基本行为动作是智能体行为的基础;文章在分析FIRA半自主机器人足球系统(MiroSot)的基础上,设计了包含开环类、简单控制类和到定点转向给定角度类三大类、共五种基本动作,介绍了控制算法实现并通过实验得到了它们的运动性能;利用这些动作在时间和空间的组合协调,可以实现复杂的动作行为,并在历次国内比赛中证实了其有效性。 相似文献
13.
14.
机器人足球仿真比赛是检验各种多智能体系统理论的标准平台,在这个极为复杂的多智能体环境中,多个智能体需要通过协作完成共同目标,而协作可通过共享阵型获得.阵型是多智能体协作行为所要求的,它使多个智能体以有序、智能的方式进行协作.为适应RoboCup实时动态环境下多智能体间的协作需求,文中以阵型为研究对象,提出基于不同阵型转换和基于单一阵型调整的阵型策略并将其应用到机器人足球仿真比赛中,仿真结果表明结合应用这两种阵型策略提高了仿真球队的协作攻防效果. 相似文献
15.
机器人模仿学习是机器人技术的重要研究方向之一。针对机器人动作模仿学习,设计了Kinect和Darwin-OP2机器人的联合调试与仿真平台。该平台主要包括图像采集模块、运动控制模块和3D模型仿真模块,具有人体姿态解算、机器人实时状态监控及姿态仿真、与下位机网络通信及远程实时跟踪控制等功能。测试结果显示,该平台响应迅速、网络通信机制稳定、交互界面友好,能较好地实现机器人动作模仿学习。 相似文献
16.
17.
仿生水下机器人是水下机器人领域的一个重要研究方向;利用增强学习控制器对仿生水下机器人的姿态镇定问题进行了研究;增强学习控制器主要由回报函数、学习样本数据库、神经网络、动作选择以及Q学习算法等模块构成,可通过直接与环境交互生成最优动作选择策略;镇定仿生水下机器人的偏航角姿态镇定的仿真试验表明,增强学习控制器在偏航角姿态镇定方面的性能较为理想;学习样本数据库的引入显著提升了增强学习控制器的姿态镇定性能;学习样本数据库的容量对学习性能存在较大影响。 相似文献
18.
多机器人动态编队的强化学习算法研究 总被引:8,自引:0,他引:8
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性. 相似文献
19.
应用遗传算法的多机器人协调动作学习 总被引:1,自引:0,他引:1
本文力图做出的系统是应用遗传算法使多机器人学习可以动作协调而总体实现最多的搬运。多机器人移动的环境采用图表表示,移动的规则是用遗传算法优化制订的,在两预定结点之间的往返次数取为适合度,用计算机构造环境并进行仿真,结果表明多机器人协调作学习时可视情况需要而互相让路。 相似文献
20.
基于人工神经网络的多机器人协作学习研究 总被引:5,自引:0,他引:5
机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域,它是一个典型的多智能体系统。文中主要研究机器人足球比赛中的协作行为的学习问题,采用人工神经网络算法实现了两个足球机器人的传球学习,实验结果表明了该方法的有效性。最后讨论了对BP算法的诸多改进方法。 相似文献