共查询到17条相似文献,搜索用时 140 毫秒
1.
多Agent自动协商中机器学习的应用研究 总被引:2,自引:0,他引:2
目前将机器学习理论应用到多Agent自动协商系统中已成为电子商务领域的最新研究课题。本文即是利用贝叶斯法则来更新协商中的环境信息(即信念),利用强化学习中的Q学习算法生成协商中的提议,建立了一个具有学习机制的多Agent自动协商模型。并且封传统Q学习算法追行了扩充,设计了基于Agent的当前信念和最近探索盈余的动态Q学习算法。实验验证了算法的收敛性。 相似文献
2.
一种具有自主学习能力的并发协商模型 总被引:3,自引:0,他引:3
提出一种具有自主学习能力的并发协商模型,通过使用增强学习方法的Q学习算法生成协商提议,使用相似度方法评价提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题多Agent并发协商。 相似文献
3.
在Multi-Agent系统(MAS)中,每一个Agent都有不同的目标。通常只拥有对方的不完全信息。Agent需要具有解决在实现各自目标过程中所产生的各种矛盾的能力。协商是解决这些矛盾的一种有效途径。本文提出了一个基于Bayesian学习的协商模型NMBL:在每一轮协商中,Agent通过Bayesian学习获取协商对手的信息,更新对协商对手的信念,然后根据基于冲突点和不妥协度的协商策略提出下一轮的协商提议。NMBL把整个协商过程看成一个动态的交互过程,体现了Multi-Agent系统的动态特性,同时NMBL具有较强的学习能力。试验证明,该模型具有较好的协商性能。 相似文献
4.
5.
6.
为了能够快速、高效地进行Agent协商,构建一个优化的多Agent协商模型。在这个模型的基础上,提出了一个基于协商各方公平性的协商学习算法。算法采用基于满意度的思想评估协商对手的提议,根据对方Agent协商历史及本次协商交互信息,通过在线学习机制预测对方Agent协商策略,动态得出协商妥协度并向对方提出还价提议。最后,通过买卖协商仿真实验验证了该算法的收敛性,表明基于该算法的模型工作的高效性、公平性。 相似文献
7.
AODE是我们研制的一个面向agent的智能系统开发环境,本文以AODE为平台研究了多agent环境下的协商与学习本文利用协商-协商过程-协商线程的概念建立了多边-多问题协商模型MMN,该协商模型支持多agent环境中的多种协商形式及agent在协商过程中的学习,系统中的学习agent采用状态概率聚类空间上的多agent强化学习算法.该算法通过使用状态聚类方法减少Q值表存储所需空间,降低了经典Q-学习算法由于使用Q值表导致的对系统计算资源的要求,且该算法仍然可以保证收敛到最优解. 相似文献
8.
9.
一种用于软件过程建模的适应性Agent 协商 总被引:3,自引:0,他引:3
大多软件过程模型是预定义的.在变化的应用环境中,需要由相应人员进行适应性调整.提出一种用于软件过程建模的适应性多边协商模型—— AMNM-PA,其采用Agent 封装软件过程中所涉及的个体,包含组织、团队、个人等,通过Agent 间的协商动态、适应地建立针对给定软件项目的软件过程模型.AMNM-PA 基于非静态有限阶段Markov 决策过程,采用模型无关的Q 学习算法选取协商策略,因此能够支持动态、非预知环境下的适应性协商,从而满足软件过程建模对环境的适应性需求.AMNM-PA 已经实施于软件过程管理系统——SoftPM. 相似文献
10.
伙伴选择是虚拟企业建立过程中的核心问题,分析了虚拟企业的特点、虚拟企业环境下协商问题的特点,提出了一个适合于虚拟企业环境的多Agent协商模型。该模型支持多Agent多议题的多轮谈判,并将Agent类型引入到协商中来,作为指导协商Agent提议的一个重要因素。在不完全信息的条件下,应用贝叶斯学习的方法,更新既有信息,并通过分析对方Agent的历史提议序列,推测其类型,来指导自身的提议策略和战术,使自己的提议更具有针对性,避免了盲目性,从而节约协商时间,提高了协商的效率,使得盟主企业能在尽短的时间里寻找到理想的合作伙伴。 相似文献
11.
Suitable rescue path selection is very important to rescue lives and reduce the loss of disasters, and has been a key issue in the field of disaster response management. In this paper, we present a path selection algorithm based on Q-learning for disaster response applications. We assume that a rescue team is an agent, which is operating in a dynamic and dangerous environment and needs to find a safe and short path in the least time. We first propose a path selection model for disaster response management, and deduce that path selection based on our model is a Markov decision process. Then, we introduce Q-learning and design strategies for action selection and to avoid cyclic path. Finally, experimental results show that our algorithm can find a safe and short path in the dynamic and dangerous environment, which can provide a specific and significant reference for practical management in disaster response applications. 相似文献
12.
13.
14.
让计算机具有认知和表达自己情感的能力,培养其智能地时人类的情感做出反应是现阶段信息科学研究的热点内容.本文构建了基于动态Q学习算法的情感自动机模型,在该模型中,定义了情感元的概念,情感元应用动态Q学习算法来预测并感知环境的变化,从而改变自身情感来适应周围环境. 相似文献
15.
Q学习通过与外部环境的交互来进行单路口的交通信号自适应控制。在城市交通愈加拥堵的时代背景下,为了缓解交通拥堵,提出一种结合SCOOT系统对绿信比优化方法的Q学习算法。本文将SCOOT系统中对绿信比优化的方法与Q学习相结合,即通过结合车均延误率以及停车次数等时间因素以及经济因素2方面,建立新的数学模型来作为本算法的成本函数并建立一种连续的奖惩函数,在此基础上详细介绍Q学习算法在单路口上的运行过程并且通过与Webster延误率和基于最小车均延误率的Q学习进行横向对比,验证了此算法优于定时控制以及基于车均延误的Q学习算法。相对于这2种算法,本文提出的算法更加适合单路口的绿信比优化。 相似文献
16.
17.
面对当前电力系统的负荷不确定、新能源并网与双碳目标等现状,在充分考虑供需双方福利前提下,建立了智能电网背景下考虑负荷不确定与碳交易的实时定价模型,并基于强化学习能够处理变量复杂性、非凸非线性问题优点,采用强化学习中Q学习算法对模型进行迭代求解。首先,将用户与供电商实时交互过程转换为强化学习框架对应的马尔可夫决策过程;其次,通过智能体在动态环境中的反复探索表示用户与供电商的信息交互;最后,通过强化学习中的Q学习算法寻找最优值即最大社会福利值。仿真结果表明,所提实时定价策略能够有效提升社会福利,降低碳排放总量,这验证了所提模型和算法的有效性。 相似文献