期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙羽张汝波顾国昌《小型微型计算机系统》2002,23(5):558-560

强化学习一词来自于行为心理学，这门学科把行为学习看成反复试验的过程，从而把环境状态映射成相应的动作。在设计智能机器人过程中，如何来实现行为主义的思想，在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为，采用强化学习方法来实现智能机器人避碰行为学习。为了提高机器人学习速度，在机器人局部路径规划中的状态空量化就显得十分重要。本文采用自组织映射网络的方法来进行空间的量化。由于自组织映射网络本身所具有的自组织特性，使得它在进行空间量化时就能够较好地解决适应性灵活性问题，本文在对状态空间进行自组织量化的基础方法上，采用强化学习。解决了机器人避碰行为的学习问题，取得了满意的学习结果。相似文献

2.

Q—学习及其在智能机器人局部路径规划中的应用研究 总被引：2，自引：1，他引：1

张汝波杨广铭《计算机研究与发展》1999,36(12):1430-1436

强化学习－词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作。在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,有杉强化学习方法来实现智能机器人避碰行为学习。Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制相似文献

3.

Q-学习及其在智能机器人局部路径规划中的应用研究 总被引：9，自引：3，他引：6

张汝波杨广铭顾国昌张国印《计算机研究与发展》1999,36(12):1430-1436

强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作．在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习．Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制的Ｑ－学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果相似文献

4.

强化学习理论、算法及应用 总被引：38，自引：3，他引：38

张汝波顾国昌刘照德王醒策《控制理论与应用》2000,17(5):637-642

强化学习（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）一词来自于行为心理学,这一理论把行为学习看成是反复试验的过程,从而把环境状态映射成相应的动作。首先全面地介绍了强化学习理论的主要算法,即瞬时差分法、Ｑ－学习算法及自适应启发评价算法;然后介绍了强化学习的应用情况;最后讨论了强化学习目前所要研究的问题。相似文献

5.

强化学习中资格迹的作用

孙羽张汝波徐东《计算机工程》2002,28(5):128-129,198

强化学习一词来自行为心理学，该学科把学习看作反复试验的过程，强化学习系统中的资格迹用来解决时间信度分配问题，文章介绍了资格迹的基本原理和实现方法。相似文献

6.

Q学习的改进研究及其仿真实验 总被引：1，自引：0，他引：1

张云刘建平《计算机仿真》2007,24(10):111-114

Q学习是一种重要的强化学习方法.针对Q学习的不足,进行了一些改进研究.首先引入轮盘赌的方法,通过概率的途径进行行为选择,避免了早期训练中高Q值的束缚,增加了随机性,更加符合Q学习的要求.其次针对复杂环境或是稀疏型回报函数的情况下计算量的指数增长,通过添加正负再励信号的方法进行改进,并通过大量的仿真实验进行反复验证,得出负的再励信号更加有效.理论和实验均证明,该方法具有较强的可行性,切实有效的加快了Q函数的收敛速度,提高了学习效率. 相似文献

7.

基于ART2的Q学习算法研究 总被引：1，自引：0，他引：1

姚明海瞿心昱李佳鹤顾勤龙汤丽平《控制与决策》2011,26(2):227-232

为了解决Q学习应用于连续状态空间的智能系统所面临的"维数灾难"问题,提出一种基于ART2的Q学习算法.通过引入ART2神经网络,让Q学习Agent针对任务学习一个适当的增量式的状态空间模式聚类,使Agent无需任何先验知识,即可在未知环境中进行行为决策和状态空间模式聚类两层在线学习,通过与环境交互来不断改进控制策略,从而提高学习精度.仿真实验表明,使用ARTQL算法的移动机器人能通过与环境交互学习来不断提高导航性能. 相似文献

8.

基于强化学习的多机器人协作 总被引：3，自引：0，他引：3

周浦城洪炳镕郭耸《计算机工程与应用》2005,41(28):10-12,90

提出了一种动态环境下多个机器人获取合作行为的强化学习方法,该方法采用基于瞬时奖励的Q-学习完成单个机器人的学习,并利用人工势场法的思想确定不同机器人的学习顺序,在此基础上采用交替学习来完成多机器人的学习过程。试验结果表明所提方法的可行性和有效性。相似文献

9.

基于生成对抗网络的模仿学习综述 总被引：1，自引：0，他引：1

林嘉豪章宗长姜冲郝建业《计算机学报》2020,43(2):326-351

模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 相似文献

10.

基于偏向信息学习的双层强化学习算法 总被引：1，自引：0，他引：1

林芬石川罗杰文史忠植《计算机研究与发展》2008,45(9):1455-1462

传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来：偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛. 相似文献

11.

Learning scheduling control knowledge through reinforcements

K. Miyashita 《International Transactions in Operational Research》2000,7(2):125-138

This paper introduces a method of learning search control knowledge in schedule optimization problems through application of reinforcement learning. Reinforcement learning is an effective approach for the problem faced by the agent that learns its behavior through trial-and-error interactions with a dynamic environment. Nevertheless, reinforcement learning has a difficulty of slow convergence when applied to the problems with a large state space. The paper discusses the case-based function approximation technique, which makes reinforcement learning applicable to the large scale problems such as a job-shop scheduling problem. To show effectiveness of the approach, reinforcement learning is applied to acquire search control knowledge in repair-based schedule optimization process. Preliminary experiment results show that repair-action selection made by learned search control knowledge succeeded in improving scheduling quality efficiently. 相似文献

12.

A topological reinforcement learning agent for navigation

Arthur P. S. Braga Aluízio F. R. Araújo 《Neural computing & applications》2003,12(3-4):220-236

This article proposes a reinforcement learning procedure for mobile robot navigation using a latent-like learning schema. Latent learning refers to learning that occurs in the absence of reinforcement signals and is not apparent until reinforcement is introduced. This concept considers that part of a task can be learned before the agent receives any indication of how to perform such a task. In the proposed topological reinforcement learning agent (TRLA), a topological map is used to perform the latent learning. The propagation of the reinforcement signal throughout the topological neighborhoods of the map permits the estimation of a value function which takes in average less trials and with less updatings per trial than six of the main temporal difference reinforcement learning algorithms: Q-learning, SARSA, Q(λ)-learning, SARSA(λ), Dyna-Q and fast Q(λ)-learning. The RL agents were tested in four different environments designed to consider a growing level of complexity in accomplishing navigation tasks. The tests suggested that the TRLA chooses shorter trajectories (in the number of steps) and/or requires less value function updatings in each trial than the other six reinforcement learning (RL) algorithms. 相似文献

13.

基于Markov对策的多Agent强化学习模型及算法研究 总被引：19，自引：0，他引：19

高阳周志华何佳洲陈世福《计算机研究与发展》2000,37(3):257-263

在ＭＤＰ,单Ａｇｅｎｔ可以通过强化学习来寻找问题的最优解。但在多Ａｇｅｎｔ系统中,ＭＤＰ模型不再适用。同样极小极大Ｑ算法只能解决采用零和对策模型的ＭＡＳ学习问题。文中采用非零和Ｍａｒｋｏｖ对策作为多Ａｇｅｎｔ系统学习框架,并提出元对策强化学习的学习模型和元对策Ｑ算法。理论证明元对策Ｑ算法收敛在非零和Ｍａｒｋｏｖ对策的元对策最优解。相似文献

14.

基于先验知识的改进强化学习及其在MAS中应用 总被引：2，自引：1，他引：1

下载免费PDF全文

毛俊杰刘国栋《计算机工程与应用》2008,44(24):156-158

针对传统的多Agent强化学习算法中,Agent学习效率低的问题,在传统强化学习算法中加入具有经验知识的函数;从心理学角度引入内部激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。最后将此算法运用到RoboCup仿真中,仿真结果表明该算法的学习效率和收敛速度明显优于传统的强化学习。相似文献

15.

Generating inspiration for agent design by reinforcement learning

《Information and Software Technology》2012,54(6):639-649

相似文献

16.

结合优势结构和最小目标Q值的深度强化学习导航算法

朱威洪力栋施海东何德峰《控制理论与应用》2024,41(4):716-728

针对现有基于策略梯度的深度强化学习方法应用于办公室、走廊等室内复杂场景下的机器人导航时,存在训练时间长、学习效率低的问题,本文提出了一种结合优势结构和最小化目标Q值的深度强化学习导航算法.该算法将优势结构引入到基于策略梯度的深度强化学习算法中,以区分同一状态价值下的动作差异,提升学习效率,并且在多目标导航场景中,对状态价值进行单独估计,利用地图信息提供更准确的价值判断.同时,针对离散控制中缓解目标Q值过估计方法在强化学习主流的Actor-Critic框架下难以奏效,设计了基于高斯平滑的最小目标Q值方法,以减小过估计对训练的影响.实验结果表明本文算法能够有效加快学习速率,在单目标、多目标连续导航训练过程中,收敛速度上都优于柔性演员评论家算法(SAC),双延迟深度策略性梯度算法(TD3),深度确定性策略梯度算法(DDPG),并使移动机器人有效远离障碍物,训练得到的导航模型具备较好的泛化能力. 相似文献

17.

一种基于梯度的多智能体元深度强化学习算法

赵春宇赖俊陈希亮张人文《计算机应用研究》2024,41(5)

多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化（MAMPPO）方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。相似文献

18.

Using temporal-difference learning for multi-agent bargaining

《Electronic Commerce Research and Applications》2008,7(4):432-442

This research treats a bargaining process as a Markov decision process, in which a bargaining agent’s goal is to learn the optimal policy that maximizes the total rewards it receives over the process. Reinforcement learning is an effective method for agents to learn how to determine actions for any time steps in a Markov decision process. Temporal-difference (TD) learning is a fundamental method for solving the reinforcement learning problem, and it can tackle the temporal credit assignment problem. This research designs agents that apply TD-based reinforcement learning to deal with online bilateral bargaining with incomplete information. This research further evaluates the agents’ bargaining performance in terms of the average payoff and settlement rate. The results show that agents using TD-based reinforcement learning are able to achieve good bargaining performance. This learning approach is sufficiently robust and convenient, hence it is suitable for online automated bargaining in electronic commerce. 相似文献