期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于强化学习的多Agent系统 总被引：4，自引：0，他引：4

唐文彬朱淼良《计算机科学》2003,30(4):16-18

1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个相似文献

2.

元博弈平衡和多Agent强化学习的MetaQ算法 总被引：1，自引：0，他引：1

王皓高阳《计算机研究与发展》2006,43(Z1)

多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能. 相似文献

3.

基于强化学习的多Agent协作研究 总被引：2，自引：0，他引：2

郑淑丽韩江洪骆祥峰蒋建文《小型微型计算机系统》2003,24(11):1986-1988

强化学习为多Agent之间的协作提供了鲁棒的学习方法．本文首先介绍了强化学习的原理和组成要素，其次描述了多Agent马尔可夫决策过程MMDP，并给出了Agent强化学习模型．在此基础上，对多Agent协作过程中存在的两种强化学习方式：IL(独立学习)和JAL(联合动作学习)进行了比较．最后分析了在有多个最优策略存在的情况下，协作多Agent系统常用的几种协调机制．相似文献

4.

多Agent深度强化学习综述 总被引：6，自引：4，他引：6

梁星星冯旸赫马扬程光权黄金才王琦周玉珍刘忠《自动化学报》2020,46(12):2537-2557

近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景. 相似文献

5.

多Agent系统的协作及强化学习算法研究

郑淑丽韩江洪骆祥峰蒋建文《模式识别与人工智能》2002,15(4)

研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解. 相似文献

6.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。相似文献

7.

基于Q-强化学习的多Agent协商策略及算法

下载免费PDF全文

隋新蔡国永史磊《计算机工程》2010,36(17):198-200

针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。相似文献

8.

一种基于强化学习的学习Agent 总被引：22，自引：2，他引：22

李宁高阳陆鑫陈世福《计算机研究与发展》2001,38(9):1051-1056

强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略,是构造智能Agent的核心技术之一,在面向Agent的开发环境AODE中扩充BDI模型,引入策略和能力心智成分,采用强化学习技术实现策略构造函数,从而提出一种基于强化学习技术的学习Agent,研究AODE中自适应Agent物结构和运行方式,使智能Agent具有动态环境的在线学习能力,有效期能够有效地满足Agent各种心智要求。相似文献

9.

基于强化学习的自适应多Agent系统的构造

沈乐毛新军董孟高《计算机工程与科学》2011,33(12):72-77

自适应系统所处的环境往往是不确定的,其变化事先难以预测,如何支持这种环境下复杂自适应系统的开发已经成为软件工程领域面临的一项重要挑战.强化学习是机器学习领域中的一个重要分支,强化学习系统能够通过不断试错的方式,学习环境状态到可执行动作的最优对应策略.本文针对自适应系统环境不确定的问题,将Agent技术与强化学习技术相结... 相似文献

10.

基于强化学习的多移动Agent学习算法

刘菲曾广周《计算机工程与应用》2006,42(5):50-53

结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。相似文献

11.

基于正则线性模型的马尔科夫边学习算法

严曙胡晓波王儒敬《计算机应用与软件》2020,37(2):182-191

已被证明修改的岭回归模型(MRRLM)在满足一定条件下可以发现目标变量的马尔科夫边的子集。但由于该模型引入协方差矩阵,导致在有变量共线的数据集上无法求解。为克服MRRLM缺陷寻找合适的替代模型,以实证的方式结合置换检验方法研究MRRLM与其他正则线性模型马尔科夫边发现效率之间的关系,并研究新的变种岭回岭模型(NVRRLM)在数据集上的适用性规律。实验结果表明:在低维连续数据集上,MRRLM马尔科夫边子集的发现效率远高于岭回归模型,但与拉索模型和弹性网络模型基本相近;在低维二值离散数据集上,MRRLM与岭回归模型、拉索模型和弹性网络模型的马尔科夫边的子集发现效率基本相近;NVRRLM完全可以用于变量共线数据集上马尔科夫边的子集发现。实验结果为解决低维变量共线数据集上选择合适的MRRLM替代模型提供了依据。相似文献

12.

强化学习系统及其基于可靠度最优的学习算法 总被引：3，自引：0，他引：3

俞星星阎平凡《信息与控制》1997,26(5):332-339

归纳了强化学习的主要理论方法，提出了一个区分主客观因素的强化学习系统描述，引入了任务域的概念，针对以往强化学习采用的期望最优准则描述任务域能力的不足，考虑了目标水平准则下的首达时间可靠度优准则模型，分别结合随机逼近理论和时间差分理论，提出了基于概率估计的Ｊ－学习和无需建增量Ｒ－学习。相似文献

13.

ADAPTIVE MODEL LEARNING BASED ON DYNA-Q LEARNING

Kao-Shing Hwang Wei-Cheng Jiang Yu-Jen Chen 《控制论与系统》2013,44(8):641-662

Dyna-Q, a well-known model-based reinforcement learning (RL) method, interplays offline simulations and action executions to update Q functions. It creates a world model that predicts the feature values in the next state and the reward function of the domain directly from the data and uses the model to train Q functions to accelerate policy learning. In general, tabular methods are always used in Dyna-Q to establish the model, but a tabular model needs many more samples of experience to approximate the environment concisely. In this article, an adaptive model learning method based on tree structures is presented to enhance sampling efficiency in modeling the world model. The proposed method is to produce simulated experiences for indirect learning. Thus, the proposed agent has additional experience for updating the policy. The agent works backwards from collections of state transition and associated rewards, utilizing coarse coding to learn their definitions for the region of state space that tracks back to the precedent states. The proposed method estimates the reward and transition probabilities between states from past experience. Because the resultant tree is always concise and small, the agent can use value iteration to quickly estimate the Q-values of each action in the induced states and determine a policy. The effectiveness and generality of our method is further demonstrated in two numerical simulations. Two simulations, a mountain car and a mobile robot in a maze, are used to verify the proposed methods. The simulation result demonstrates that the training rate of our method can improve obviously. 相似文献

14.

基于Markov对策的强化学习及其在RoboCup中的应用

李镇宇陈小平《计算机工程与应用》2005,41(27):202-204,214

论文研究了Markov对策模型作为学习框架的强化学习,提出了针对RoboCup仿真球队决策问题这一类复杂问题的学习模型和具体算法。在实验中,成功实现了守门员决策,并取得了良好的效果,证明了算法的可行性和有效性。相似文献

15.

面向自动文摘的多Agent系统中的协调算法研究 总被引：2，自引：0，他引：2

胡舜耕王克宏刘晓宇钟义信《计算机研究与发展》2001,38(11):1302-1309

为了解决自动文摘系统所面临的领域通用性和文摘质量的矛盾,提出了建造面向自动文摘的多Aent系统（MAS／ABS)的方案。建造这样的系统,有两个关键问题：建立什么样的系统模型和选择什么样的协调算法。给出了在Internet环境下面向自动文摘的多Agent系统模型,提出了3种协调算法。在仿真的基础上分析了系统性能,对3种协调算法进行了比较研究,并得到了在一定负载下面向各个领域合适的文摘Agent数目。相似文献

16.

基于层次隐马尔可夫模型和神经网络的个性化推荐算法 总被引：1，自引：0，他引：1

郭聃《计算机应用与软件》2021,38(1):313-319,329

传统推荐系统将推荐准确性作为主要目标,而推荐结果的多样性和个性化有所欠缺.对此,设计一种基于层次隐马尔可夫模型和神经网络的推荐算法.采用层次隐马尔可夫模型建模用户喜好和上下文环境的关系,并通过隐马尔可夫模型预测上下文.设计神经网络结构来解决协同过滤推荐的问题,同时神经网络满足贝叶斯个性化排序的条件,实现对推荐列表的个性... 相似文献

17.

一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 总被引：1，自引：0，他引：1

顾国昌仲宇张汝波《机器人》2003,25(4):344-348

在多机器人系统中，评价一个机器人行为的好坏常常依赖于其它机器人的行为，此时必须采用组合动作以实现多机器人的协作，但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢．本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数，并应用于多机器人协作任务之中．实验结果表明，基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略．相似文献

18.

基于遗传算法的Bayesian网结构学习研究 总被引：26，自引：3，他引：26

刘大有王飞卢奕南薛万欣王松昕《计算机研究与发展》2001,38(8):916-922

从不完备数据中学习网络结构是Bayesian网学习的难点之一,计算复杂度高,实现困难。针对该问题提出了一种进化算法。设计了结合数学期望的适应度函数,该函数利用进化过程中的最好Bayesian网把不完备数据转换成完备数据,从而大大简化了学习的复杂度,并保证算法能够向好的结构不断进化。此外,给出了网络结构的编码方案,设计了相应的遗传算子,使得该算法能够收敛到全局最优的Bayesian网结构。模拟实验结果表明,该算法能有效地从不完备数据中学习。相似文献

19.

基于神经网络的强化学习算法研究 总被引：11，自引：0，他引：11

陆鑫高阳李宁陈世福《计算机研究与发展》2002,39(8):981-985

BP神经网络在非线性控制系统中被广泛运用，但作为有导师监督的学习算法，要求批量提供输入输出对神经网络训练，而在一些并不知道最优策略的系统中，这样的输入输出对事先并无法得到，另一方面，强化学习从实际系统学习经验来调整策略，并且是一个逼近最优策略的过程，学习过程并不需要导师的监督。提出了将强化学习与BP神经网络结合的学习算法-RBP模型。该模型的基本思想是通过强化学习控制策略，经过一定周期的学习后再用学到的知识训练神经网络，以使网络逐步收敛到最优状态。最后通过实验验证了该方法的有效性及收敛性。相似文献

20.

基于Multi-Agent的协作式网络学习系统模型研究

陶剑文《计算机应用与软件》2008,25(1):273-274,282

引入Agent技术,提出一种基于Multi-Agent的协作式网络学习系统模型:详细阐述了MASCWL的工作流程及模型构建;引入Petri网模型,对学习主体Agent间协作控制过程进行了形式化描述;提出了系统实现具体方案;最后,利用计算机Multi-Agent仿真建模平台Swarm对学习主体Agent的复杂协作行为进行了仿真建模,实验结果显示:MASCWL在一定数量的学习主体协作下呈现一定的优化性能. 相似文献