共查询到19条相似文献,搜索用时 93 毫秒
1.
多智能体学习中基于知识的强化函数设计方法 总被引:1,自引:0,他引:1
强化函数的设计是构建多智能体学习系统的一个难点。提出了一种基于知识的强化函数设计方法,根据实际应用的特点,将经验信息和先验知识引入到强化函数中,提高了强化学习的性能。通过在RobotSoccer中的应用和实验,基于知识的强化函数的学习效果要优于传统的强化函数。 相似文献
2.
多智能体团队合作在机器人足球赛中的应用 总被引:5,自引:2,他引:5
Robocup机器人足球比赛是近年来人工智能和机器人学迅速发展的一个重要的研究领域,通过这个平台,可以来评价各种理论和算法。但由于机器人足球比赛系统固有的动态性、不确定性及实时性,这就要求整个智能体团队的合作结构能够应付这种复杂环境。针对这点,文中探讨了一种基于阵型和角色的方法来实现多智能体的团队合作,通过应用到客户端程序上所取得的良好效果,证明此方法对于多智能体的团队合作是有效的。 相似文献
3.
Robocup机器人足球比赛是近年来人工智能和机器人学迅速发展的一个重要的研究领域,通过这个平台,可以来评价各种理论和算法.但由于机器人足球比赛系统固有的动态性、不确定性及实时性,这就要求整个智能体团队的合作结构能够应付这种复杂环境.针对这点,文中探讨了一种基于阵型和角色的方法来实现多智能体的团队合作,通过应用到客户端程序上所取得的良好效果,证明此方法对于多智能体的团队合作是有效的. 相似文献
4.
5.
一种基于分布式强化学习的多智能体协调方法 总被引:2,自引:0,他引:2
多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。 相似文献
6.
7.
8.
9.
10.
韩伟 《模式识别与人工智能》2008,21(1):111-115
针对Q学习状态空间非常大,导致收敛速度非常慢的问题,给出一种基于边界样本协调的多智能体在线合作学习方法,使得智能体在特定的子空间上进行特化并通过边界状态上的开关函数相互协调,从而能够较快地学习到局部最优.仿真实验表明该方法能够取得比全局学习更好的在线学习性能. 相似文献
11.
基于动作视觉协调的足球机器人视觉跟踪方法 总被引:2,自引:2,他引:2
文章提出了一种基于动作视觉协调的足球机器人视觉跟踪方法,它跟踪准确,对光照环境的适应性强。实验表明,该方法简单有效。该方法已应用于某校研制的Mirosot机器人足球比赛系统,并且参加比赛取得了优良成绩。 相似文献
12.
13.
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题.为制定合理的防守策略,将Robocup比赛中的一个子任务--半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法.将该算法应用到3D仿真球队--大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果.验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论. 相似文献
14.
15.
介绍了RoboCup四腿机器人足球赛事及其决策子系统的结构。以SONY公司推出的机器狗AIBO为试验开发平台,详细介绍了基于该机器人足球赛事的多智能体协作角色分配问题,提出DKD方法用于解决局部合作问题,使决策冲突减到最小,任务分配更加明确。 相似文献
16.
基于实时ZMP检测的类人足球机器人步态规划 总被引:1,自引:0,他引:1
为了保证类人机器人行走的稳定性,合理的步态规划和误差补偿是最为关键的两个方面。针对研究新一代的类人足球机器人AFU2008,在步态规划方面,根据ZMP(零力矩点)稳定性原理,首先用参考轨迹法进行关节轨迹规划,然后由运动学逆解出的关节转角值对机器人舵机进行实际控制;在误差补偿方面,采用对ZMP影响较大的上体运动进行误差补偿,并针对传统的上体补偿方法的局限性,提出了允许上体高度作匀速运动的改进方法。最后通过仿真和实际实验表明:相对于传统补偿方法,新方法能够更加明显减小机器人的ZMP误差,提高机器人ZMP的稳定裕度,使得类人机器人可以稳定快速的行走。 相似文献
17.
本文基于YUV颜色空间,采用Minkowski距离对颜色进行分类;利用改进的差分法,对图像中的目标进行检测和识别,提出了一种识别机器人足球比赛中目标的快速算法,提高了系统的实时性,减少了程序的运算量。 相似文献
18.
针对足球机器人自定位问题,提出一种融合测程法与视觉信息的定位方法。方法综合考虑两种信息的特点,有效实现优势互补:一方面,针对视觉定位易出现的歧义,利用测程法获得的定位结果予以有效消解;另一方面,随着运动,测程法定位易出现误差的累积,利用消歧后的视觉定位结果加以动态修正。最后,在Webots模拟平台上进行的机器人球场定位实验表明文中方法的有效性。 相似文献
19.
使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性。对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略。因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向。 相似文献