排序方式: 共有7条查询结果,搜索用时 0 毫秒
1
1.
2.
在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的“维数灾”问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的、以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习. 相似文献
3.
一种结合环境状态的Agent语义模型 总被引:3,自引:0,他引:3
在Agent模型的研究中,大部分工作集中在基于Agent的思维状态(BDI)的模型,没有考虑外部环境的影响,或者仅仅将外部环境和内部思维状态笼统混在一起进行分析,没有考虑到它们之间的内在联系,将Agent的BDI思维属性模型与外部环境状态相结合,给出了在部分可观察环境下,结合外部环境状态的MAS语言语法,语义模型,考虑了Agent的可见算子,观察算子和信念算子之间的关系,并通过机器人足球赛的例子,对该语义系统加以具体描述,这些研究推广了Kaelbling,Wooldridge等人的工作。 相似文献
4.
1 Robocup 国际机器人足球赛(The Robot World Cup),简称Robocup,是人工智能和机器人研究的一种集中体现,特点在于给研究者提供了一个把他们的研究成果以竞赛方式表现出来的机会,实验的环境是动态的、互相敌对的、又需符合一定的标准。Robocup,为不同的理论、算法和Agent体系结构提供了一种评价的手段,为了 相似文献
5.
在多Agent系统中,通过学习可以使Agent不断增加和强化已有的知识与能力,并选择合理的动作最大化自己的利益.但目前有关Agent学习大都限于单Agent模式,或仅考虑Agent个体之间的对抗,没有考虑Agent的群体对抗,没有考虑Agent在团队中的角色,完全依赖对效用的感知来判断对手的策略,导致算法的收敛速度不高.因此,将单Agent学习推广到在非通信群体对抗环境下的群体Agent学习.考虑不同学习问题的特殊性,在学习模型中加入了角色属性,提出一种基于角色跟踪的群体Agent再励学习算法,并进行了实验分析.在学习过程中动态跟踪对手角色,并根据对手角色与其行为的匹配度动态决定学习速率,利用minmax-Q算法修正每个状态的效用值,最终加快学习的收敛速度,从而改进了Bowling和Littman等人的工作. 相似文献
6.
在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的"维数灾"问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的.以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习. 相似文献
7.
张双民 《北京电力高等专科学校学报(自然科学版)》2012,29(4)
文章分析了1OKV供电线路采用高电压无功补偿电容器出现的故障,以及引起故障的系统原因和设番原因。笔者重点对出现的系统原因做出分析和提出一些切实可行的解决措施。 相似文献
1