期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

韩学东洪炳熔《计算机工程与设计》2002,23(6):1-3

机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域，它是一个典型的多智能体系统。文中主要研究机器人足球比赛中的协作行为的学习问题，采用人工神经网络算法实现了两个足球机器人的传球学习，实验结果表明了该方法的有效性。最后讨论了对BP算法的诸多改进方法。相似文献

2.

强化学习在足球机器人基本动作学习中的应用 总被引：1，自引：0，他引：1

段勇杨淮清崔宝侠徐心和《机器人》2008,30(5):1

主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用．强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛．针对这一问题,提出了基于T-S 模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射．此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题．最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要．相似文献

3.

机器人足球比赛仿真系统 总被引：2，自引：0，他引：2

洪炳熔韩学东《计算机应用与软件》2003,20(2):3-4,51

机器人足球比赛是一个新兴的人工智能研究领域。然而，真实的机器人足球比赛所需的硬件设备是比较昂贵，为此本文研究并实现了一个机器人足球比赛策略的仿真系统，并讨论了有关建模的问题，分析了用于机器人足球比赛的几何建模和动态建模的主要方法，本文开发的机器人足球比赛仿真系统SimuroSot已经被国际机器人足球联盟采纳，并作为世界杯机器人足球比赛仿真比赛的平台。相似文献

4.

机器人足球比赛策略仿真系统的开发 总被引：10，自引：1，他引：9

洪炳熔薄喜柱《计算机应用研究》1999,16(3):65-68

多智能体系统（Ｍｕｌｔｉ－ＡｇｅｎｔＳｙｓｔｅｍ）是近来在智能机器人领域兴起的一个新课题。它主要研究多机器人在各种不利的环境条件下,如何相互配合和合作来达到某一目的。微机器人世界杯足球比赛（ＭＩＲＯＳＯＴ）为研究多智能体系统提供既经济又典型的实验场地。本文主要讨论机器人足球比赛所必需的比赛策略及其计算机仿真。本文首先描述了机器人足球比赛几何建模与动态建模,其次提出足球机器人的基本行为与动作仿真,最后讨论了机器人足球比赛策略及其计算机仿真。相似文献

5.

多智能体足球机器人策略研究 总被引：1，自引：0，他引：1

宁建华俞辉赵英凯《计算机工程与设计》2009,30(17)

机器人足球比赛的策略是进行机器人足球比赛的最根本的要素.通过对一个在实际仿真机器人足球比赛时使用的策略在FIRA机器人足球比赛5 VS 5仿真平台上的仿真,实现多个智能体机器人相互配合来完成进球的任务.分析了部分策略的实现方式,归纳了不同位置的智能体机器人在使用不同的策略时相互之间的协作关系.仿真结果表明多了该智能体机器人的仿真足球策略要更胜一筹. 相似文献

6.

基于多智能体协同的角色互换策略的研究应用

章成飞程泽凯秦锋《计算机技术与发展》2013,(9)

多智能体协同技术是人工智能领域的一个重要分支。机器人足球比赛为多智能体协同技术的研究提供了一个测试平台,仿真机器人足球比赛球员Agent具有号码属性与角色属性。文中以仿真机器人足球比赛中的球员Agent为研究对象,利用在线教练机制对球员Agent进行建模,提出了对手角色识别策略以及基于多智能体协同的球员Agent动态角色互换策略。在Agent2D底层中编程实现,与某球队进行测试,胜率大大增加,结果表明了该算法的有效性,该算法可提高球队的进攻能力。相似文献

7.

激励学习在RoboCup截球技术中的研究

吴俊陈焕文陈鹏慧蔡琼《微计算机信息》2012,(9):469-470,251

机器人足球比赛是一个有意义而且复杂的新兴的人工智能研究领域,它是一个典型的多智能体系统。RoboCup是一个通用的实验平台,在该平台上可以评价各种理论和算法。本文采基于Q算法的激励学习研究了机器人的截球技术,将其应用在RoboCup仿真平台上,智能体经过多次的学习之后,实验表明截球技术取得了理想的效果。相似文献

8.

基于模块化Q学习的足球机器人合作 总被引：2，自引：0，他引：2

周彤洪炳镕周洪玉《微型机与应用》2005,24(10):65-68

提出了一种新的多机器人系统学习结构,这种学习结构能够降低环境状态空间和机器人的动作空间,加快学习速度。该方法的有效性在机器人足球比赛中得到了验证。相似文献

9.

一种类人机器人控制系统的设计

常加营刘国栋《计算机应用与软件》2012,(11)

类人机器人是多项高技术的集成,代表机器人的尖端技术,而机器人足球比赛是其技术的具体应用.针对RoboCup足球比赛,介绍一种机器人的上层决策系统的实现方法,硬件结构使用DSP和ARM组合,在此基础上使用有限状态机理论对单个机器人的决策进攻策略进行了详细研究.真实比赛环境中的实验结果验证了该实现方法的有效性,对多智能体协作的自主决策系统的研究也具有重要意义. 相似文献

10.

机器人足球比赛研究 总被引：24，自引：0，他引：24

洪炳熔韩学东孟伟《机器人》2003,25(4):373-377

机器人足球比赛是一个有趣且复杂的人工智能的新兴研究领域，它试图利用一个将各种理论、算法和Agent体系结构集成在一起的任务来促进机器人学和人工智能研究的发展．论述了机器人足球比赛的目标、意义、所涉及的关键技术以及一些主要的应用方面，同时指出了机器人足球比赛今后的发展方向．希望引起研究人员对机器人足球比赛的重视，以便促进机器人足球比赛在我国的发展．相似文献

11.

深度强化学习在智能制造中的应用展望综述

下载免费PDF全文

孔松涛刘池池史勇谢义王堃《计算机工程与应用》2021,57(2):49-59

深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的研究进行概述,对深度强化学习基本原理进行介绍,包括深度学习和强化学习。介绍深度强化学习算法应用的理论方法,在此基础对深度强化学习的算法进行了分类介绍,分别介绍了基于值函数和基于策略梯度的强化学习算法,列举了这两类算法的主要发展成果,以及其他相关研究成果。对深度强化学习在智能制造的典型应用进行分类分析。对深度强化学习存在的问题和未来发展方向进行了讨论。相似文献

12.

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

13.

提高强化学习速度的方法研究 总被引：4，自引：0，他引：4

张汝波《计算机工程与应用》2001,37(22):38-40

强化学习一词出自于行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必然增加智能系统的困难性,学习时间增长。强化学习学习速度较慢的原因是没有明确的监督信号。因此,强化学习系统在与环境交互时不得不采取反复试验的方法依靠外部评价信号来调整自己的行为。智能系统必然经过很长的学习过程。如何提高强化学习速度是一个最重要的研究问题。该文从几个方面来讨论提高强化学习速度的方法。相似文献

14.

贝叶斯学习与强化学习结合技术的研究

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

15.

基于强化学习的智能机器人避碰方法研究 总被引：9，自引：0，他引：9

张汝波周宁顾国昌张国印《机器人》1999,21(3):204-209

本文采用强化学习方法实现了智能机器人的避碰行为学习．文中首先介绍了强化学习原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析．相似文献

16.

深度强化学习中稀疏奖励问题研究综述 总被引：1，自引：0，他引：1

杨惟轶白辰甲蔡超赵英男刘鹏《计算机科学》2020,47(3):182-191

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。相似文献

17.

Relational Reinforcement Learning

Džeroski Sašo De Raedt Luc Driessens Kurt 《Machine Learning》2001,43(1-2):7-52

Relational reinforcement learning is presented, a learning technique that combines reinforcement learning with relational learning or inductive logic programming. Due to the use of a more expressive representation language to represent states, actions and Q-functions, relational reinforcement learning can be potentially applied to a new range of learning tasks. One such task that we investigate is planning in the blocks world, where it is assumed that the effects of the actions are unknown to the agent and the agent has to learn a policy. Within this simple domain we show that relational reinforcement learning solves some existing problems with reinforcement learning. In particular, relational reinforcement learning allows us to employ structural representations, to abstract from specific goals pursued and to exploit the results of previous learning phases when addressing new (more complex) situations. 相似文献

18.

元强化学习综述

赵春宇赖俊《计算机应用研究》2023,40(1)

强化学习在游戏对弈、系统控制等领域内表现出良好的性能,如何使用少量样本快速学习新任务是强化学习中亟需解决的问题。目前的有效解决方法是将元学习应用在强化学习中,由此所产生的元强化学习日益成为强化学习领域中的研究热点。为了帮助后续研究人员快速并全面了解元强化学习领域,根据近年来的元强化学习文献对研究方法进行梳理,将其归纳成基于循环网络的元强化学习、基于上下文的元强化学习、基于梯度的元强化学习、基于分层的元强化学习和离线元强化学习,对五种类型的研究方法进行对比分析,简要阐述了元强化学习的基本理论和面临的挑战,最后基于当前研究现状讨论了元强化学习的未来发展前景。相似文献

19.

平均报酬模型强化学习理论、算法及应用

下载免费PDF全文

黄炳强曹广益李建华《计算机工程》2007,33(18):18-19,3

折扣报酬模型强化学习是目前强化学习研究的主流，但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响，而有时候较大远期期望报酬的策略有可能是最优的，因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。相似文献

20.

P2P系统中的一种信任关系管理协议

下载免费PDF全文

林怀清李之棠黄庆凤《计算机工程》2007,33(18):20-21,2

信任关系管理是Peer-to-Peer信任模型的重要部分，在分布式环境中，如何安全存放和访问信任值是一个难以解决的问题。本协议采用可验证的、无可信中心的(k, n)门限密码系统产生系统的公/私密钥，征集k个管理者为系统中的用户生成证书，管理协议为用户提供信任值的匿名存储和访问服务。分析显示协议能极好地抵御各种攻击。相似文献