首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于改进的Q学习的RoboCup传球策略研究   总被引:3,自引:0,他引:3  
模拟机器人足球比赛(Robot World Cup,RobdCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点.传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间.提出将神经网络应用于Q学习,系统只需学习部分状态一动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力.然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率.  相似文献   

2.
C5.0算法在RoboCup传球训练中的应用研究   总被引:4,自引:0,他引:4  
张家旺  韩光胜  张伟 《计算机仿真》2006,23(4):132-134,153
针对于RoboCup比赛中出现的传球精度不够准确的问题,通过对决策树学习方法的探讨,该文提出了一种用于RoboCup仿真球队中Agent学习传球技能的一种决策树方法。将C5.0即ID3的改进算法应用到Agent传球能力的训练中,它使得Agent能够根据场上的具体情况,把球成功传给队友。Agent在得到球的控制权之后,首先确定传球成功率最大的球员,然后并不直接执行传球的动作,而是调整Agent自身的准备动作以达到传球的最佳状态,最后进行传球的行为。仿真结果表明,该方法有效地提高了Agent的传球能力。  相似文献   

3.
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态—连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.  相似文献   

4.
张驰  韩光胜 《计算机仿真》2005,22(5):189-192
为了在multi-agent系统中实现agent之间的竞争与协作,该文提出了一种新的在线学习方法,即:改进的模糊Q学习方法,在这种方法中,agent通过增强学习方法来调节模糊推理系统,进而获得最优的模糊规则。为了改善学习的时间,Q学习方法中的奖励值并不是固定的,而是根据状态而变化。将改进的模糊Q学习方法应用到RoboCup仿真环境中,使智能体通过在线学习获得跑位技巧。并通过实验证明厂该方法的有效性。  相似文献   

5.
一种模糊强化学习算法及其在RoboCup中的应用   总被引:1,自引:0,他引:1  
传统的强化学习算法只能解决离散状态空间和动作空间的学习问题。论文提出一种模糊强化学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划。作者在RoboCup环境中验证了这个算法,实现了踢球策略的优化。  相似文献   

6.
介绍一种新的在线自适应的动态模糊Q强化学习算法.系统根据从环境中得到的反馈评估已进行的决策,给予奖励和惩罚,更新系统的Q值,在线自动调整模糊控制的结构与参数.根据系统当前的环境状态以及模糊控制强化学习的Q值来决定当前规则的动作输出,并由模糊推理产生连续输出的动作.扩展贪心搜索策略,确保控制规则的各个输出动作在学习初期都被搜索过,避免陷入局部最优解.将有效跟踪算法和后设学习规则相结合,有效提高系统学习速率.在嵌入式平台中实时控制的实现以及和相关研究结论的对比验证该算法的优越性.  相似文献   

7.
深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。  相似文献   

8.
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个通用的实验平台,通过它可以来评价各种理论、算法和框架等,已经成为人工智能的研究热点。针对RoboCup仿真中的守门员防守问题,基于Q学习算法,描述了在特定场景中应用Q学习训练守门员的方法和过程。在RobCup中验证了该算法,实现了守门员防守策略的优化。  相似文献   

9.
基于Q学习的Agent智能防守策略研究与应用   总被引:3,自引:1,他引:2  
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个通用的实验平台,通过它可以来评价各种理论、算法和框架等,已经成为人工智能的研究热点.针对RoboCup仿真中的守门员防守问题,基于Q学习算法,描述了在特定场景中应用Q学习训练守门员的方法和过程.在RobCup中验证了该算法,实现了守门员防守策略的优化.  相似文献   

10.
针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function, RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间表达问题;然后,结合资格迹机制形成多步Sarsa算法,通过记录经历过的状态提高系统的学习效率;最后,采用温度参数衰减的方式改进softmax策略,优化动作的选择概率,达到平衡探索和利用关系的目的. MountainCar任务的仿真实验表明:所提出算法经过少量训练能够有效实现无模型情况下的连续非线性系统控制;与单步算法相比,该算法完成任务所用的平均收敛步数更少,效果更稳定,表明非线性值函数近似与多步算法结合在控制任务中同样可以具有良好的性能.  相似文献   

11.
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。为了解决传统进攻策略中进攻重点难以确定的问题,基于动态目标驱动模型,深入研究了中路进攻策略,提出了动态评估传球时机的评价函数,经过RobCup实验平台的仿真测试分析,表明在比赛环境多变的情况下,该策略仍能提高进攻效率。  相似文献   

12.
基于神经网络的连续状态空间Q学习已应用在机器人导航领域。针对神经网络易陷入局部极小,提出了将支持向量机与Q学习相结合的移动机器人导航方法。首先以研制的CASIA-I移动机器人和它的工作环境为实验平台,确定出Q学习的回报函数;然后利用支持向量机对Q学习的状态——动作对的Q值进行在线估计,同时,为了提高估计速度,引入滚动时间窗机制;最后对所提方法进行了实验,实验结果表明所提方法能够使机器人无碰撞的到达目的地。  相似文献   

13.
RRL is a relational reinforcement learning system based on Q-learning in relational state-action spaces. It aims to enable agents to learn how to act in an environment that has no natural representation as a tuple of constants. For relational reinforcement learning, the learning algorithm used to approximate the mapping between state-action pairs and their so called Q(uality)-value has to be very reliable, and it has to be able to handle the relational representation of state-action pairs. In this paper we investigate the use of Gaussian processes to approximate the Q-values of state-action pairs. In order to employ Gaussian processes in a relational setting we propose graph kernels as a covariance function between state-action pairs. The standard prediction mechanism for Gaussian processes requires a matrix inversion which can become unstable when the kernel matrix has low rank. These instabilities can be avoided by employing QR-factorization. This leads to better and more stable performance of the algorithm and a more efficient incremental update mechanism. Experiments conducted in the blocks world and with the Tetris game show that Gaussian processes with graph kernels can compete with, and often improve on, regression trees and instance based regression as a generalization algorithm for RRL. Editors: David Page and Akihiro Yamamoto  相似文献   

14.
The present study aims at contributing to the current state-of-the art of activity-based travel demand modelling by presenting a framework to simulate sequential data. To this end, the suitability of a reinforcement learning approach to reproduce sequential data is explored. Additionally, as traditional reinforcement learning techniques are not capable of learning efficiently in large state and action spaces with respect to memory and computational time requirements on the one hand, and of generalizing based on infrequent visits of all state-action pairs on the other hand, the reinforcement learning technique as used in most applications, is enhanced by means of regression tree function approximation.Three reinforcement learning algorithms are implemented to validate their applicability: the traditional Q-learning and Q-learning with bucket-brigade updating are tested against the improved reinforcement learning approach with a CART function approximator. These methods are applied on data of 26 diary days. The results are promising and show that the proposed techniques offer great opportunity of simulating sequential data. Moreover, the reinforcement learning approach improved by introducing a regression tree function approximator learns a more optimal solution much faster than the two traditional Q-learning approaches.  相似文献   

15.
Reinforcement learning (RL) has been widely used as a mechanism for autonomous robots to learn state-action pairs by interacting with their environment. However, most RL methods usually suffer from slow convergence when deriving an optimum policy in practical applications. To solve this problem, a stochastic shortest path-based Q-learning (SSPQL) is proposed, combining a stochastic shortest path-finding method with Q-learning, a well-known model-free RL method. The rationale is, if a robot has an internal state-transition model which is incrementally learnt, then the robot can infer the local optimum policy by using a stochastic shortest path-finding method. By increasing state-action pair values comprising of these local optimum policies, a robot can then reach a goal quickly and as a result, this process can enhance convergence speed. To demonstrate the validity of this proposed learning approach, several experimental results are presented in this paper.  相似文献   

16.
为实现仿人机器人快速稳定的行走,在满足有效参数组合的条件下,提出一种基于深度强化学习的步行参数训练算法以优化机器人步态。首先,从环境中捕获机器人步态模型参数作为DQN的输入;然后,用DQN来拟合机器人行走产生的状态-动作值函数;最后,通过动作选择策略选择当前机器人执行的步态动作,同时产生奖励函数达到更新DQN的目的。选择NAO仿真机器人为实验对象,在RoboCup3D仿真平台上进行实验,结果证明在此算法下,NAO仿人机器人可以获得稳定的双足步行。  相似文献   

17.
Wireless sensor network(WSN)is effective for monitoring the target environment,which consists of a large number of sensor nodes of limited energy.An efficient medium access control(MAC)protocol is thus imperative to maximize the energy efficiency and performance of WSN.The most existing MAC protocols are based on the scheduling of sleep and active period of the nodes,and do not consider the relationship between the load condition and performance.In this paper a novel scheme is proposed to properly determine the duty cycle of the WSN nodes according to the load,which employs the Q-leaming technique and function approximation with linear regression.This allows low-latency energy-efficient scheduling for a wide range of traffic conditions,and effectively overcomes the limitation of Q-learning with the problem of continuous state-action space.NS3 simulation reveals that the proposed scheme significantly improves the throughput,latency,and energy efficiency compared to the existing fully active scheme and S-MAC.  相似文献   

18.
RoboCup仿真组的传球策略   总被引:4,自引:1,他引:4  
郭博  程家兴 《微机发展》2006,16(2):129-131
为了提高传球的准确性和队员之间的配合,将一种新的传球策略引入机器人足球传球中。介绍了BP算法自身的特点,并把BP算法应用在传球中。进一步,利用BP算法的思想,从解析几何的角度对决策过程进行修改和改进。最终表明这种传球策略提高了传球效率。以后的工作重点是加大传球提前量,提高进攻节奏。  相似文献   

19.
张峰  刘凌云  郭欣欣 《控制与决策》2019,34(9):1917-1922
多阶段群体决策问题是一类典型的动态群体决策问题,主要针对离散的确定状态下的最优群体决策问题求解.但由于现实环境面临的大部分是不确定状态空间,甚至是未知环境空间(例如状态转移概率矩阵完全未知),为了寻求具有较高共识度的多阶段群体最优策略,决策者需要通过对环境的动态交互来获得进一步的信息.针对该问题,利用强化学习技术,提出一种求解多阶段群体决策的最优决策算法,以解决在不确定状态空间下的多阶段群体决策问题.结合强化学习中的Q-学习算法,建立多阶段群体决策Q-学习基本算法模型,并改进该算法的迭代过程,从中学习得到群体最优策略.同时证明基于Q-学习得到的多阶段群体最优策略也是群体共识度最高的策略.最后,通过一个计算实例说明算法的合理性及可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号