首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
多Agent自动协商中机器学习的应用研究   总被引:2,自引:0,他引:2  
目前将机器学习理论应用到多Agent自动协商系统中已成为电子商务领域的最新研究课题。本文即是利用贝叶斯法则来更新协商中的环境信息(即信念),利用强化学习中的Q学习算法生成协商中的提议,建立了一个具有学习机制的多Agent自动协商模型。并且封传统Q学习算法追行了扩充,设计了基于Agent的当前信念和最近探索盈余的动态Q学习算法。实验验证了算法的收敛性。  相似文献   

2.
一种具有自主学习能力的并发协商模型   总被引:3,自引:0,他引:3  
张谦  邱玉辉 《计算机应用》2006,26(3):663-0665
提出一种具有自主学习能力的并发协商模型,通过使用增强学习方法的Q学习算法生成协商提议,使用相似度方法评价提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题多Agent并发协商。  相似文献   

3.
在Multi-Agent系统(MAS)中,每一个Agent都有不同的目标。通常只拥有对方的不完全信息。Agent需要具有解决在实现各自目标过程中所产生的各种矛盾的能力。协商是解决这些矛盾的一种有效途径。本文提出了一个基于Bayesian学习的协商模型NMBL:在每一轮协商中,Agent通过Bayesian学习获取协商对手的信息,更新对协商对手的信念,然后根据基于冲突点和不妥协度的协商策略提出下一轮的协商提议。NMBL把整个协商过程看成一个动态的交互过程,体现了Multi-Agent系统的动态特性,同时NMBL具有较强的学习能力。试验证明,该模型具有较好的协商性能。  相似文献   

4.
基于交互历史的多Agent自动协商研究   总被引:4,自引:0,他引:4  
在多Agent协商过程中,初始信念起到了至关重要的作用.而初始信念的形成是由设计者给予的部分专家知识和策略集,成功的交互历史是Agent在复杂环境中最后达成一致的提议集.通过学习机制从交互历史中获得知识,形成协商的初始信念,将更加有效地预测对方的策略,缩短协商过程的时间,再通过在线学习来协调己方Agent的行为.在此基础上优化协商模型,提高协商的效率和成功率.  相似文献   

5.
秦子鹰  周南  赵冬梅 《微计算机信息》2007,23(24):137-138,88
该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型,该模型具有如下特点:用基于效用的相似度比较法实现Agent智能搜索;模型采用学习机制包括历史学习和Q-学习,历史学习机制用于Agent协商前初始信念的创建,对Agent在协商中策略的选择、执行具有指导作用。Q-学习机制用于生成协商提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题协商。  相似文献   

6.
为了能够快速、高效地进行Agent协商,构建一个优化的多Agent协商模型。在这个模型的基础上,提出了一个基于协商各方公平性的协商学习算法。算法采用基于满意度的思想评估协商对手的提议,根据对方Agent协商历史及本次协商交互信息,通过在线学习机制预测对方Agent协商策略,动态得出协商妥协度并向对方提出还价提议。最后,通过买卖协商仿真实验验证了该算法的收敛性,表明基于该算法的模型工作的高效性、公平性。  相似文献   

7.
AODE是我们研制的一个面向agent的智能系统开发环境,本文以AODE为平台研究了多agent环境下的协商与学习本文利用协商-协商过程-协商线程的概念建立了多边-多问题协商模型MMN,该协商模型支持多agent环境中的多种协商形式及agent在协商过程中的学习,系统中的学习agent采用状态概率聚类空间上的多agent强化学习算法.该算法通过使用状态聚类方法减少Q值表存储所需空间,降低了经典Q-学习算法由于使用Q值表导致的对系统计算资源的要求,且该算法仍然可以保证收敛到最优解.  相似文献   

8.
为了帮助协商Agent选择最优行动实现其最终目标,提出基于贝叶斯分类的增强学习协商策略。在协商过程中,协商Agent根据对手历史信息,利用贝叶斯分类确定对手类型,并及时动态地调整协商Agent对对手的信念。协商Agen、通过不断修正对对手的信念,来加快协商解的收敛并获得更优的协商解。最后通过实验验证了策略的有效性和可用性。  相似文献   

9.
一种用于软件过程建模的适应性Agent 协商   总被引:3,自引:0,他引:3  
黎巎  李明树  王青  赵琛  杜栓柱 《软件学报》2009,20(3):557-566
大多软件过程模型是预定义的.在变化的应用环境中,需要由相应人员进行适应性调整.提出一种用于软件过程建模的适应性多边协商模型—— AMNM-PA,其采用Agent 封装软件过程中所涉及的个体,包含组织、团队、个人等,通过Agent 间的协商动态、适应地建立针对给定软件项目的软件过程模型.AMNM-PA 基于非静态有限阶段Markov 决策过程,采用模型无关的Q 学习算法选取协商策略,因此能够支持动态、非预知环境下的适应性协商,从而满足软件过程建模对环境的适应性需求.AMNM-PA 已经实施于软件过程管理系统——SoftPM.  相似文献   

10.
基于多Agent协商的虚拟企业伙伴选择方法   总被引:1,自引:0,他引:1       下载免费PDF全文
伙伴选择是虚拟企业建立过程中的核心问题,分析了虚拟企业的特点、虚拟企业环境下协商问题的特点,提出了一个适合于虚拟企业环境的多Agent协商模型。该模型支持多Agent多议题的多轮谈判,并将Agent类型引入到协商中来,作为指导协商Agent提议的一个重要因素。在不完全信息的条件下,应用贝叶斯学习的方法,更新既有信息,并通过分析对方Agent的历史提议序列,推测其类型,来指导自身的提议策略和战术,使自己的提议更具有针对性,避免了盲目性,从而节约协商时间,提高了协商的效率,使得盟主企业能在尽短的时间里寻找到理想的合作伙伴。  相似文献   

11.
Path selection in disaster response management based on Q-learning   总被引:1,自引:0,他引:1  
Suitable rescue path selection is very important to rescue lives and reduce the loss of disasters, and has been a key issue in the field of disaster response management. In this paper, we present a path selection algorithm based on Q-learning for disaster response applications. We assume that a rescue team is an agent, which is operating in a dynamic and dangerous environment and needs to find a safe and short path in the least time. We first propose a path selection model for disaster response management, and deduce that path selection based on our model is a Markov decision process. Then, we introduce Q-learning and design strategies for action selection and to avoid cyclic path. Finally, experimental results show that our algorithm can find a safe and short path in the dynamic and dangerous environment, which can provide a specific and significant reference for practical management in disaster response applications.  相似文献   

12.
针对服务协商中信息的不对称性、协商环境的动态性以及QoS属性的不确定性和模糊性,提出基于区间相似度的动态服务协商模型。利用区间相似度和区间估计预测对方的协商策略,以此制定己方的最优反策略。算例分析表明,在动态服务协商环境下,该模型比静态协商模型更贴近现实的协商行为,能有效提高协商效率。  相似文献   

13.
研究了电子商务交易模型的实现机制,设计了基于Multi-Agent的电子商务交易市场的组织结构,在基于Multi-Agent的撮合交易系统中,把整个交易过程看成一个动态的交互过程,体现了MultiAgent系统的动态特性,同时引入强化学习算法对竞标策略进行动态修正,使多主体撮合交易系统具有一定的自均衡和自学习能力。试验表明,基于多主体的撮合交易模型和动态竞标机制具有较好的交易性能。  相似文献   

14.
让计算机具有认知和表达自己情感的能力,培养其智能地时人类的情感做出反应是现阶段信息科学研究的热点内容.本文构建了基于动态Q学习算法的情感自动机模型,在该模型中,定义了情感元的概念,情感元应用动态Q学习算法来预测并感知环境的变化,从而改变自身情感来适应周围环境.  相似文献   

15.
Q学习通过与外部环境的交互来进行单路口的交通信号自适应控制。在城市交通愈加拥堵的时代背景下,为了缓解交通拥堵,提出一种结合SCOOT系统对绿信比优化方法的Q学习算法。本文将SCOOT系统中对绿信比优化的方法与Q学习相结合,即通过结合车均延误率以及停车次数等时间因素以及经济因素2方面,建立新的数学模型来作为本算法的成本函数并建立一种连续的奖惩函数,在此基础上详细介绍Q学习算法在单路口上的运行过程并且通过与Webster延误率和基于最小车均延误率的Q学习进行横向对比,验证了此算法优于定时控制以及基于车均延误的Q学习算法。相对于这2种算法,本文提出的算法更加适合单路口的绿信比优化。  相似文献   

16.
蒋国瑞  吕星 《计算机工程》2012,38(7):139-141,144
在基于多Agent的多属性谈判过程中,谈判Agent间常因追求自身最大利益导致谈判陷入僵局。为此,将谈判目标视为抗原,将候选提议视为抗体,建立基于人工免疫算法的多属性谈判模型。该模型通过抗原与抗体的免疫过程,取得谈判双方整体利益的最大化。仿真实验表明,该模型可有效解决谈判僵局问题,提高谈判的适应性及效率。  相似文献   

17.
面对当前电力系统的负荷不确定、新能源并网与双碳目标等现状,在充分考虑供需双方福利前提下,建立了智能电网背景下考虑负荷不确定与碳交易的实时定价模型,并基于强化学习能够处理变量复杂性、非凸非线性问题优点,采用强化学习中Q学习算法对模型进行迭代求解。首先,将用户与供电商实时交互过程转换为强化学习框架对应的马尔可夫决策过程;其次,通过智能体在动态环境中的反复探索表示用户与供电商的信息交互;最后,通过强化学习中的Q学习算法寻找最优值即最大社会福利值。仿真结果表明,所提实时定价策略能够有效提升社会福利,降低碳排放总量,这验证了所提模型和算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号