期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王富忠 ;郭俊辉 ;沈祖志《杭州应用工程技术学院学报》2008,(4):284-288

从博弈分析角度出发,研究了物流多Agent招投标过程在完全信息和不完全信息下的博弈问题,探讨了基于最低报价策略的博弈、基于“联盟体”报价策略的博弈和“联盟体”瓦解报价策略的博弈。结果表明,通过引入两种惩罚机制,可以有效瓦解招投标过程中存在的“联盟体”报价情形。完全信息与不完全信息下的多Agent招投标报价,其博弈过程及博弈方式对“阳光企业”招投标而言具备很强的指导意义。相似文献

2.

聚类多Agent强化学习认知无线电资源分配

伍春江虹易克初《北京邮电大学学报》2014,37(1):80-84

针对认知无线电多用户的信道和功率资源分配问题,提出一种基于用户聚类和可变学习速率的多Agent强化学习方法. 首先使用分层处理分离信道选择与功率控制,采用快速最优搜索结合用户数均衡调节实现信道分配;其次,使用随机博弈框架对多用户功率控制问题进行建模,通过K均值用户聚类减少博弈参与用户数量和降低单个用户的环境复杂度,并使用可变Q学习速率和策略学习速率的方法进一步促进多Agent强化学习的收敛. 仿真结果表明,该方法能使多个用户的功率状态和总收益有效收敛,并且使整体性能达到次优. 相似文献

3.

虚拟企业合作伙伴的选择与双边博弈

顾元勋王建华等《甘肃工业大学学报》2002,28(3):121-124

给出虚拟企业的概念，从虚拟企业发起人和参与者的角度讨论了发起人的评判策略和参与者的竞选策略，引入信息亲疏系数和双边博弈的概念，对于虚拟企业合作伙伴选择过程进行了分析，得出了发起人和候选人终止选择过程的不同经济条件。相似文献

4.

多Agent系统中信任预测的SRL模型

李小勇周锋杨旭东倪晖《北京邮电大学学报》2010,33(6):112-115

针对多Agent系统(MAS)中信任关系管理的需求,将Sarsa 强化学习(SRL)理论应用于构建MAS中基于Agent行为的信任关系预测模型. 首先根据Agent之间交互的时间顺序,构建了基于时间戳的行为状态空间结构,然后应用SRL理论,建立了基于直接可信度和反馈可信度相融合的总体信任关系预测模型. 新模型充分利用SRL理论较强的动态适应能力,解决了传统预测模型对环境的动态变化适应能力不足的问题. 累计误差方面的实验结果表明,与已有模型相比,新模型能显著提高信任决策的准确性. 相似文献

5.

城市道路拥挤收费下路径选择的演化博弈分析

《武汉理工大学学报》2015,(9):53-59

在城市道路拥挤收费条件下研究出行者出行路径的选择,为政府管理部门提供相关参考。将驾车者划分为高时间价值者和低时间价值者,且居住地和工作地间存在一个包含直达和绕行道路的最简单网络,直达道路在早晚高峰期将征收拥挤费。采用演化博弈的思想,建立了出行者路径选择的效益矩阵,根据雅克比矩阵分析了演化博弈过程的稳定状态,并根据参数的不同分5种情况进行了相应的讨论,最后以算例验证了理论模型的适用性。结果表明,在不征收拥挤费和拥挤费较低时,若拥挤损失大于绕行损失,高、低时间价值者将分别选择直达和绕行道路,反之均倾向于选择直达道路;而在拥挤费较高的情况下,低时间价值者倾向选择绕行以规避直接出行成本的增加,高时间价值者将依然选择直达道路。相似文献

6.

动态联盟伙伴选择的优化算法

葛江华马国星韩松涛孙月洲《哈尔滨理工大学学报》2010,15(5):124-128

伙伴选择及优化已成为建立动态联盟的关键环节之一,关系到动态联盟的成败.本文在对动态联盟中伙伴选择问题的复杂性、混合性进行分析的基础上,根据盟员企业项目之间的关系,将问题分解为链式(面向产品制造/装配)和并行(面向生产能力/技术创新)两类,并建立了问题的多目标组合模型,通过候选企业的筛选和确定优化组合方案,优化了模型求解过程,并通过一个模具制造的算例验证了该方法的有效性. 相似文献

7.

基于多Agent并行采样和学习经验复用的E~3算法

刘全杨旭东荆玲肖飞《吉林大学学报(工学版)》2013,43(1):135-140

针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。相似文献

8.

联盟企业中伙伴选择的质量决策问题

马骏唐文麒《南京师范大学学报》2003,3(1):77-80

联盟企业是未来的一种企业模式．如何选择合适的伙伴企业是盟主企业必须面临的问题．在描述了质量决策模型的基础上．给出了应用统计方法对质量数据进行统计,通过数据输出给出质量问题模糊答案的方法．并以实例说明该方法的具体应用．相似文献

9.

基于演化博弈理论的有限理性交通选择行为模型 总被引：2，自引：0，他引：2

关宏志浦亮《北京工业大学学报》2010,36(8):1077-1083

基于出行者掌握不完全的路网信息和选择行为有限理性的假设,运用演化博弈理论建立了出行者交通选择行为模型,并基于数学归纳法的思路,从理论上证明演化方法对交通选择行为分析的适用性.经证明,2条乃至n条独立路径条件下,求得的进化稳定状态与用交通分配理论和随机效用理论所得到的均衡状态完全等价. 相似文献

10.

基于多智体强化学习的接入网络切片动态切换

秦爽赵冠群冯钢《电子科技大学学报(自然科学版)》2020,49(2):162-168

网络切片技术将广泛应用于以5G为代表的下一代移动通信网络中,为网络中多样化的业务提供按需的网络服务。在基于切片的移动通信网络中,用户往往需要根据不断变化的网络状态,进行接入切片的动态切换,以获得更好的网络传输和服务性能。考虑到存在多个用户的网络中,某一用户的接入选择将对接入切片的可用传输资源产生影响,从而影响其他用户的接入和切换决策。因此,该文将基于网络切片的移动通信网络中多用户的接入切换建模为一个多人随机博弈问题,采用多智体强化学习的方法对该问题进行求解,并设计了一种基于分布式多智体强化学习算法的多用户接入切片动态切换机制。在此基础上,通过仿真实验验证了该切换算法性能。相似文献

11.

多步截断SARSA强化学习算法 总被引：3，自引：2，他引：3

李春贵林海涛刘永信《广西工学院学报》2002,13(1):1-4

提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算相似文献

12.

多Agent MDPs中并行Rollout学习算法

李豹《安徽工程大学学报》2014,29(2)

文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由于Rollout算法具有很强的内在并行性,文中还分析了并行求解方法.通过多级仓库库存控制的仿真试验,验证了Rollout算法在多Agent学习中的有效性. 相似文献

13.

基于角色交换的多Agent协商问题的研究

申静姚军财《陕西工学院学报》2011,(1):45-49

利用角色与Agent之间的动态性刻画多Agent系统的结构和行为模型的特点,针对在协商过程中相互协作的Agent如何结成具有相对稳定的合作领域的问题,对角色进行形式化描述,提出了基于角色交换的多Agent协商角色交换算法。该算法能在不完全信息的环境下,提高多个Agent之间的协商效率;并以模拟足球赛为平台进行实验,结果证明该算法是可行有效的。相似文献

14.

基于Q-学习的进化博弈决策模型 总被引：1，自引：0，他引：1

刘伟兵黎民王先甲《武汉大学学报(工学版)》2008,41(4)

基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略. 相似文献

15.

交通规则形成的演化博弈分析

杨涛宗刚《北京工业大学学报》2011,37(4):624-627

以直行交通规则为例,利用演化博弈方法对交通规则的形成进行理论解释.指出有限理性的驾驶员模仿具有高支付策略的行为,导致了群体中选择左行的驾驶员在整个群体中的比例随着时间而变化.这种变化受2个因素的影响:1)选择左行的期望收益与群体平均收益的比较;2)上一时期群体中选择左行的驾驶员比重.最后借助模型分析得到:直行交通规则可以通过群体内各驾驶员间的随机匹配重复博弈自发形成,并且直行交通规则呈现出多样性和局部稳定性. 相似文献

16.

基于遗传算法的网络联盟企业伙伴选择问题的研究

朱立金李浙昆边庆彪吴跃新《昆明理工大学学报(自然科学版)》2003,28(4):45-48

为了适应市场竞争的全球化，必须研究新的企业生产模式．网络联盟企业的提出就是一种对传统企业如何适应全球化竞争的研究和尝试．在阐述了组建网络联盟企业中合作伙伴选择过程后，着重探讨基于遗传算法的网络联盟企业伙伴选择的模型和算法．相似文献

17.

基于遗传算法的虚拟企业伙伴选择及优化

陈爱莲《江苏石油化工学院学报》2005,(3)

伙伴选择是组建虚拟企业的关键,运用遗传算法进行伙伴选择是选择优秀伙伴的一种良好的方法。主要介绍了虚拟企业的基本概念,以及虚拟企业中伙伴选择的原则及其影响因素,随后介绍了遗传算法及其解题步骤,最后着重说明了基于遗传算法的虚拟企业伙伴选择的过程及优化模型,并且用事例加以说明。相似文献

18.

一种分阶段的制造网络联盟伙伴选择方法研究

赵韩姜康于振华曹文钢《哈尔滨工业大学学报》2009,41(1):181-184

为合理地对大规模网络联盟企业进行合作伙伴的选择,提出了一种分阶段的伙伴选择算法.将伙伴选择过程分成粗选和最后决策两个阶段.在粗选阶段,考虑各子任务之间的约束,利用成本最小原则建立了该问题的数学模型,用遗传算法对所建立的模型进行求解,得到一组解,缩小了选择的范围;在决策阶段,进行综合决策分析,考虑多个影响因子,利用专家的经验从缩小的范围内确定出合适的合作伙伴.该方法利用数学和经验知识解决了大规模的伙伴选择问题. 相似文献

19.

基于演化博弈模型的REITs激励对策研究

龙天炜陈亚东姜湾湾石云峰《天津城建大学学报》2022,(1):59-65

从地方政府的视角出发,构建REITs推广下的演化博弈模型,用演化稳定策略和复制动态方程的相关原理,分析国有企业与地方政府、房地产企业与地方政府之间的博弈关系,并用MATLAB软件对博弈结果进行数值仿真.研究结果表明：国有企业和房地产企业对REITs激励政策的反应有所不同,国有企业增量成本在一定范围内的变动会改变REITs的推广时间,不会对最终的博弈结果产生影响;房地产企业收益和增量成本的同样幅度变动会改变博弈的最终结果,使房地产企业参与REITs的意愿降低,最终导致REITs推广的失败.最后结合我国的现状,提出REITs推广过程中的对策建议. 相似文献

20.

基于Agent UML的多Agent系统建模研究 总被引：1，自引：0，他引：1

张心明罗莹年劲飞《长春理工大学学报(自然科学版)》2004,27(3):33-35

由于Agent和对象的差异,本文引入Agent UML对多Agent系统进行建模研究.简要介绍了UML和Agent UML,以供应链管理为实例从多Agent系统的需求分析、静态建模、动态建模出发,给出了基于Agent UML的建模方法和步骤. 相似文献