首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对传统博弈搜索算法无法适用于多人非完备信息博弈,通过分析UCT-RAVE算法的原理和特性,提出了运用UCT-RAVE算法与蒙特卡罗抽样技术相结合的方法.通过蒙特卡罗抽样技术将非完备信息提取为有一定可信度的完备信息,运用UCT-RAVE算法基于此完备信息进行搜索,结合多次蒙特卡罗抽样下的最佳收益,选择最适行动.实例结果表明了该方法的可行性和有效性.  相似文献   

2.
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN (D3QN) 的单交叉口交通信号控制方法。构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题。设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN (DDQN) 提取深层次特征信息的能力。基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试。仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。  相似文献   

3.
MaxSAT问题是SAT可满足性问题的优化形式,具有NP难度.本文分析了传统的MaxSAT局部搜索求解器对工业算例求解存在的局限性,并基于此分析提出了新的初始解构造算法ASIF.ASIF是一个基于树形赋值的初始解构造算法,其中包含了一个全局信息反馈策略.该算法选取并定义了构造过程中有意义的统计量,使用这些量设计了一个全局搜索信息更新反馈机制,对初始解构造过程中的经验进行积累并为后续解的构造提供指导信息,再根据后续解的构造情况对全局经验进行反馈和更新,从而有效利用了解构造过程中的经验和信息.进一步地,将ASIF作为初始解构造算法,结合IPBMR算法中的路径截断(PB)策略,提出了新的算法PB-ASIF.实验设计与比较共分为三个阶段.第一阶段,将ASIF在300秒内首次找到的可行解与IPBMR求解300秒的结果进行对比.ASIF初始可行解更优的数量是IPBMR在300秒内求解的可行解更优数量的两倍多,其中非加权偏类算例更优解数量上前者更是后者的3.68倍.该阶段的实验结果表明,ASIF算法能快速构造优质的初始可行解.第二阶段,将PB-ASIF与IPBMR进行对比实验,在300秒求解时间内,...  相似文献   

4.
一类非完备信息博弈的信息模型   总被引:1,自引:0,他引:1  
近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获取方法,引入Markov模型进行信息处理.通过在四国军棋上的实验验证了通用信息模型在获取、管理非完备信息上的有效性,并证明了Markov网络在非完备信息处理中的有效性.  相似文献   

5.
6.
针对强化学习DQN算法的三个优化因子(即Dueling、Double-Q以及Prioritized-replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银行股票的收盘价作为研究对象。研究结果发现,相较于基线模型,Dueling对股票短期收益预测最为贴合实际,并且对Double-Q与Prioritized-replay起到了促进作用;Prioritized-replay对Double-Q与Dueling起到了抑制作用,而Double-Q则对Prioritized-replay与Dueling未起到显著性改变。鉴于DQN算法在股票短期收益预测的随机性与预测精度的问题,其未来在金融预测领域将会有更好的应用前景。  相似文献   

7.
8.
从两个不同的角度对各种进化算法进行剖析,寻求合理的解释.从信息论的角度进行讨论,分析了在算法设计中如何表示信息.提取信息、传递信息,利用信息与信息融合等问题,在优化技术与信息论之间建立了联系的纽带.从搜索的角度进行讨论,分析了单点搜索与多点搜索,指出了各种进化算法均属于随机布点,企图寻找全局最优的数值方法.  相似文献   

9.
博弈树搜索的算法改进   总被引:2,自引:1,他引:2  
王镌 《福建电脑》2004,(2):26-27
在计算机博弈程序中,通常采用是α-β剪枝算法,为了进一步提高搜索速度,先后又出现了一些改进的算法。本文综合介绍了这些搜索算法的基本思想,并用伪语言对其算法进行了描述。  相似文献   

10.
针对案例推理系统中数据集存在数据缺失的非完备信息问题,利用序关系基本原理,设计了案例推理集成方法(ORCBR)。通过对非完备信息下确定符号属性、确定数值属性、区间数值属性以及模糊语言属性等属性间相似性度量的研究,计算出目标案例与历史案例的相似性矩阵。在此基础上,利用序关系构建了相似性矩阵中不同属性的集成排序算法,从而得到最相似历史案例。通过对UCI数据库中非完备信息数据集的测试表明,OR-CBR方法比经典案例推理方法准确率高、效率高,很好地解决了非完备信息数据集的案例推理问题。  相似文献   

11.
不完全信息博弈是人工智能领域的一个重要研究领域.本文提出了一种基于可满足性模理论(Satisfiability Modulo Theories, SMT)的不完全信息游戏求解方法,首先通过情景演算将游戏动态过程描述成对应的约束,并将约束编写成命题逻辑公式,然后将推理问题转化为逻辑公式可满足性问题,调用SMT求解器Z3进行求解.应用表明,本文的算法能有效地推理出游戏的正确结果.  相似文献   

12.
基于知识推理的博弈树搜索算法   总被引:5,自引:0,他引:5  
针对搜索技术中存在的由于搜索空间过于巨大而引起的搜索效率下降的缺点,该文提出了一种把规则提取、知识推理、搜索相结合的新算法。并把该算法运用到中国象棋中去。实验结果表明,该算法不但能保证博弈水平,还能提高搜索效率。  相似文献   

13.
本文分析了Web信息搜索中的Leader算法其聚类结果中可能存在重叠区域;k-means算法其k参数的确定可能需要多次尝试。结合上述二种聚类分析算法提出将Leader算法和k-means算法融合可以同时解决上述问题,且在实际的Web信息搜索中更能体现聚类分析的优势。  相似文献   

14.
博弈理论具有的目标对立性、关系非合作性和策略依存性等特征与网络攻防对抗过程保持一致,将博弈理论应用于网络信息安全已经成为研究热点,但目前已有的研究成果大都采用完全信息博弈模型,与网络攻防实际不符。基于此,为提高信息系统风险评估的准确性,本文构建不完全信息条件下的静态贝叶斯攻防博弈模型,将其应用于网络信息系统安全风险评估,构建相应的信息系统安全风险评估算法。通过仿真实验验证了本文模型和方法的有效性,能够对信息系统安全威胁进行科学、有效的评估。  相似文献   

15.
吕艳辉  宫瑞敏 《计算机工程》2012,38(11):163-166
计算机博弈程序难以处理局面估值问题。为此,结合时间差分算法和反向传播神经网络,设计一种局面估值算法BP-TD(?),实现估值函数参数的自动调整。为提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。以五子棋为应用背景,实现博弈系统RenjuTD。实验结果表明,该算法可使程序的博弈水平得到较大提高。  相似文献   

16.
利用3种博弈模型研究信息安全中的攻防策略。讨论不完全信息动态攻防博弈模型下的攻防均衡关系,得到均衡时的策略选择及参数限制条件。考虑攻防的长期和重复性,建立不完全信息下的重复攻防博弈模型,得到长期均衡关系。针对信息安全中攻防双方不能在完全理性情况下进行策略选择的问题,引进有限理性假设条件,运用复制动态求解进化稳定策略,在验证前两个模型结论有效的基础上,进一步得到解决信息安全问题的有效策略。  相似文献   

17.
激励学习已被证明是在控制领域中一种可行的新方法。相比其他的方法,它能较好地处理未知环境问题,但它仍然不是一种有效的方法。幸运的是,在现实世界中,智能体总是会有一些环境的先验知识,这些能形成启发式信息。启发式搜索是一种常用的搜索方法,有很快的搜索速度,但需要精确的启发式信息,这在有些时候难以得到。文中分析比较了启发式搜索和激励学习的各自特点,提出一类新的基于启发式搜索的激励学习算法,初步的实验结果显示了较好的性能。  相似文献   

18.
针对不完备信息系统,提出一种基于信息量属性约简的新方法.该方法对传统的容差关系计算方法进行了改进,并在此基础之上给出了一种新的求核属性的方法.通过判断可以直接得到核属性,这样在计算的过程中大大的降低了属性约简算法的时间复杂度.最后设计了一个新的基于不完备信息系统信息量属性约简算法,通过实例验证了该算法的正确性、高效性.  相似文献   

19.
基于非完全信息博弈的网格资源分配模型   总被引:1,自引:0,他引:1  
李明楚  许雷  孙伟峰  陆坤  郭成 《软件学报》2012,23(2):428-438
针对网格计算环境动态,异构和分布的特性以及网格资源分配中资源利用率低、效益不均等问题,结合微观经济学理论,建立了一种多赢家式的网格资源拍卖模型(muti-winners auction model,简称MWAM).将隐马尔可夫模型应用在网格用户t时刻出价状态预测方面,并结合分配算法计算出能够获得所需资源的概率;并且在原有资源分配机制的基础上,结合非完全信息纳什均衡理论设计了一种多赢家拍卖算法.从理论上证明了资源分配结束后系统收益最大,且本模型符合微观经济学中的激励相容性与个人理性准则.实验模拟在验证了隐马尔可夫预测的可行性的同时,又与几种具有代表性的算法相比较,从资源利用率、系统总收益等方面突显了本模型的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号