期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

钱旭培《计算机与现代化》2006,(11):5-7,20

Agent的学习理论是目前研究的热点问题。本文基于动态模糊集（DFS）,抓住Agent心智特性,提出了一种Agent学习模型,构建出该模型下的Agent混合结构并给出了该模型的工作机制,最后借助动态模糊集（DFS）和强化学习技术实现了模型中的策略构造函数,使Agent具有自适应动态环境的能力和在线学习能力。相似文献

2.

多Agent强化学习方法与应用

郭凌云《福建电脑》2015,(5)

强化学习是Agent通过试错与环境交互改进动作策略,单Agent强化学习能够进行自学习和在线学习,单Agent的知识和资源是有限的,多个Agent强化学习是求解复杂问题的有效途径。多Agent系统比单Agent具有更强的问题求解能力,但多Agent的参与又增加了问题的复杂性。本文分析了多Agent强化学习方法的研究现状,总结了目前存在的主要问题及其解决方法,最后介绍了多Agent技术在实际问题中的部分应用。相似文献

3.

AODE系统中Agent协调机制的研究

孟波陈世福《计算机应用与软件》2002,19(2):13-16,57

本文论述了面向Agent的智能开发环境,AODE中Agent社会法律与协作机制,扩充了Shoham对Social Law的定义,即用触发器、限制和义务来描述Law,并在AODE系统中用Law Agent实现了其功能。我们还在Social Law的基础上提出了一种基于市场的Agent协调机制,该协调机制克服了Matsubayashi提出的一个基于Social Law的合作机制的某些缺点。相似文献

4.

多Agent深度强化学习综述 总被引：10，自引：4，他引：6

梁星星冯旸赫马扬程光权黄金才王琦周玉珍刘忠《自动化学报》2020,46(12):2537-2557

近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景. 相似文献

5.

基于Q-强化学习的多Agent协商策略及算法 总被引：1，自引：1，他引：0

下载免费PDF全文

隋新蔡国永史磊《计算机工程》2010,36(17):198-200

针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。相似文献

6.

基于强化学习的多移动Agent学习算法

刘菲曾广周《计算机工程与应用》2006,42(5):50-53

结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。相似文献

7.

混合多Agent环境下动态策略强化学习算法

肖正何青松张世永《小型微型计算机系统》2009,30(7)

机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益. 相似文献

8.

一种基于角色跟踪的群体Agent再励学习算法

张双民石纯一《计算机研究与发展》2005,42(2):203-209

在多Agent系统中,通过学习可以使Agent不断增加和强化已有的知识与能力,并选择合理的动作最大化自己的利益．但目前有关Agent学习大都限于单Agent模式,或仅考虑Agent个体之间的对抗,没有考虑Agent的群体对抗,没有考虑Agent在团队中的角色,完全依赖对效用的感知来判断对手的策略,导致算法的收敛速度不高．因此,将单Agent学习推广到在非通信群体对抗环境下的群体Agent学习．考虑不同学习问题的特殊性,在学习模型中加入了角色属性,提出一种基于角色跟踪的群体Agent再励学习算法,并进行了实验分析．在学习过程中动态跟踪对手角色,并根据对手角色与其行为的匹配度动态决定学习速率,利用minmax-Q算法修正每个状态的效用值,最终加快学习的收敛速度,从而改进了Bowling和Littman等人的工作．相似文献

9.

贝叶斯学习与强化学习结合技术的研究

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

10.

基于神经网络的Agent增强学习模型

唐亮贵刘波唐灿程代杰《计算机科学》2007,34(11):156-158

在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上，设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法，并对算法的收敛性进行了证明。通过对多Agent电子商务系统．中Agent竞价行为的预测仿真实验，验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。相似文献

11.

Adaptive Retrieval Agents: Internalizing Local Context and Scaling up to the Web 总被引：12，自引：0，他引：12

Menczer Filippo Belew Richard K. 《Machine Learning》2000,39(2-3):203-242

This paper discusses a novel distributed adaptive algorithm and representation used to construct populations of adaptive Web agents. These InfoSpiders browse networked information environments on-line in search of pages relevant to the user, by traversing hyperlinks in an autonomous and intelligent fashion. Each agent adapts to the spatial and temporal regularities of its local context thanks to a combination of machine learning techniques inspired by ecological models: evolutionary adaptation with local selection, reinforcement learning and selective query expansion by internalization of environmental signals, and optional relevance feedback. We evaluate the feasibility and performance of these methods in three domains: a general class of artificial graph environments, a controlled subset of the Web, and (preliminarly) the full Web. Our results suggest that InfoSpiders could take advantage of the starting points provided by search engines, based on global word statistics, and then use linkage topology to guide their search on-line. We show how this approach can complement the current state of the art, especially with respect to the scalability challenge. 相似文献

12.

基于TDT技术的Web主题搜索分析与设计

李树成田学东《微机发展》2005,15(8):145-147

提出了一种结合最新TDT技术、基于增强学习的优先Web环境主题搜索策略,并以此设计主题搜索器系统。该系统通过引入基于领域知识的TDT文本分类技术,大大改进了基于关键字的Naive Bayes模型主题相似性判别的准确性;通过引入基于增强学习的页面评估函数特征化主题Web环境,有效地提高了稀有信息的搜索能力。试验结果表明,该系统具有较高的实用性。相似文献

13.

动态环境中基于增强式学习的路径规划方法

庄晓东孟庆春熊建设殷波王汉萍《机器人》2001,(Z1)

本文结合机器人路径规划问题介绍了增强式学习方法 ,实现了动态环境中基于增强式学习的自适应路径规划 .增强式学习通过采用随机性的控制策略 ,实现策略的优化搜索和在线学习 .并采用具有模式增强输入的BP网络进行决策参数估计 ,加快学习的收敛 .仿真试验证明该方法能有效实现动态环境中机器人的避碰和导航相似文献

14.

基于强化学习的智能机器人避碰方法研究 总被引：9，自引：0，他引：9

张汝波周宁顾国昌张国印《机器人》1999,21(3):204-209

本文采用强化学习方法实现了智能机器人的避碰行为学习．文中首先介绍了强化学习原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析．相似文献

15.

基于平均序列累计奖赏的自适应ε-greedy策略

下载免费PDF全文

杨彤秦进《计算机工程与应用》2021,57(11):148-155

探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用“[ε]-greedy”策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的[ε]-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。相似文献

16.

ADAPTIVE MODEL LEARNING BASED ON DYNA-Q LEARNING

Kao-Shing Hwang Wei-Cheng Jiang Yu-Jen Chen 《控制论与系统》2013,44(8):641-662

Dyna-Q, a well-known model-based reinforcement learning (RL) method, interplays offline simulations and action executions to update Q functions. It creates a world model that predicts the feature values in the next state and the reward function of the domain directly from the data and uses the model to train Q functions to accelerate policy learning. In general, tabular methods are always used in Dyna-Q to establish the model, but a tabular model needs many more samples of experience to approximate the environment concisely. In this article, an adaptive model learning method based on tree structures is presented to enhance sampling efficiency in modeling the world model. The proposed method is to produce simulated experiences for indirect learning. Thus, the proposed agent has additional experience for updating the policy. The agent works backwards from collections of state transition and associated rewards, utilizing coarse coding to learn their definitions for the region of state space that tracks back to the precedent states. The proposed method estimates the reward and transition probabilities between states from past experience. Because the resultant tree is always concise and small, the agent can use value iteration to quickly estimate the Q-values of each action in the induced states and determine a policy. The effectiveness and generality of our method is further demonstrated in two numerical simulations. Two simulations, a mountain car and a mobile robot in a maze, are used to verify the proposed methods. The simulation result demonstrates that the training rate of our method can improve obviously. 相似文献

17.

Empirical analysis of an on-line adaptive system using a mixture of Bayesian networks

Daisuke Kitakoshi Hiroyuki Shioya 《Information Sciences》2010,180(15):2856-2874

An on-line reinforcement learning system that adapts to environmental changes using a mixture of Bayesian networks is described. Building intelligent systems able to adapt to dynamic environments is important for deploying real-world applications. Machine learning approaches, such as those using reinforcement learning methods and stochastic models, have been used to acquire behavior appropriate to environments characterized by uncertainty. However, efficient hybrid architectures based on these approaches have not yet been developed. The results of several experiments demonstrated that an agent using the proposed system can flexibly adapt to various kinds of environmental changes. 相似文献

18.

平均准则问题的即时差分学习算法 总被引：2，自引：0，他引：2

胡光华吴沧浦《自动化学报》2000,26(4):533-536

考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ) 算法及R-学习算法的一种推广. 相似文献

19.

基于改进深度强化学习的三维环境路径规划

封硕舒红谢步庆《计算机应用与软件》2021,38(1):250-255

提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与... 相似文献