期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Q-学习及其在智能机器人局部路径规划中的应用研究 总被引：9，自引：3，他引：6

张汝波杨广铭顾国昌张国印《计算机研究与发展》1999,36(12):1430-1436

强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作．在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习．Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制的Ｑ－学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果相似文献

2.

自组织映射神经网络量化机器人强化学习方法研究

孙羽张汝波顾国昌《小型微型计算机系统》2002,23(5):558-560

强化学习一词来自于行为心理学，这门学科把行为学习看成反复试验的过程，从而把环境状态映射成相应的动作。在设计智能机器人过程中，如何来实现行为主义的思想，在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为，采用强化学习方法来实现智能机器人避碰行为学习。为了提高机器人学习速度，在机器人局部路径规划中的状态空量化就显得十分重要。本文采用自组织映射网络的方法来进行空间的量化。由于自组织映射网络本身所具有的自组织特性，使得它在进行空间量化时就能够较好地解决适应性灵活性问题，本文在对状态空间进行自组织量化的基础方法上，采用强化学习。解决了机器人避碰行为的学习问题，取得了满意的学习结果。相似文献

3.

强化学习理论、算法及应用 总被引：38，自引：3，他引：38

张汝波顾国昌刘照德王醒策《控制理论与应用》2000,17(5):637-642

强化学习（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）一词来自于行为心理学,这一理论把行为学习看成是反复试验的过程,从而把环境状态映射成相应的动作。首先全面地介绍了强化学习理论的主要算法,即瞬时差分法、Ｑ－学习算法及自适应启发评价算法;然后介绍了强化学习的应用情况;最后讨论了强化学习目前所要研究的问题。相似文献

4.

一种新的基于蚁群优化的模糊强化学习算法

谢光强陈学松《计算机应用研究》2011,28(4):1266-1268

模糊Sarsa学习(FSL)是基于Sarsa学习而提出来的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,在其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。对于连续空间的复杂学习任务,FSL不能较好平衡探索和利用之间的关系,为此,本文提出了一种新的基于蚁群优化的模糊强化学习算法(ACO-FSL),主要工作是把蚁群优化(ACO)思想和传统的模糊强化学习算法结合起来形成一种新的算法。给出了算法的设计原理、方法和具体步骤,小车爬山问题的仿真实验表明本文提出的ACO-FSL算法在学习速度和稳定性上优于FSL算法。相似文献

5.

Q-learning算法及其在囚徒困境问题中的实现 总被引：5，自引：0，他引：5

张春阳陈小平刘贵全蔡庆生《计算机工程与应用》2001,37(13):121-122,128

Ｑ－ｌｅａｒｎｉｎｇ是一种优良的强化学习算法。该文首先阐述了Ｑ－ｌｅａｒｎｉｎｇ的基本学习机制,然后以囚徒困境问题为背景,分析、对比ＴＱ－ｌｅａｒｎｉｎｇ算法与ＴＦＴ算法,验证了Ｑ－ｌｅａｒｎｉｎｇ算法的优良特性。相似文献

6.

基于强化学习的智能机器人避碰方法研究 总被引：9，自引：0，他引：9

张汝波周宁顾国昌张国印《机器人》1999,21(3):204-209

本文采用强化学习方法实现了智能机器人的避碰行为学习．文中首先介绍了强化学习原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析．相似文献

7.

动作推导引擎及其在语音通信软件设计中的应用

梁冰李磊《计算机工程与应用》2004,40(4):121-123,144

动作逻辑作为描述程序行为的语言,常应用于智能机器人的开发上。该文把动作逻辑作为程序设计中的一种形式化语言,把动作解释为造成系统状态改变的原因,将引擎的思想引入到软件的开发过程中。所谓引擎的思想,就是将状态集合、动作集合输入到引擎中,根据这些输入,引擎自动查找相应的算法并执行,从而形成一个完成特定功能的软件系统。将引擎的思想引入到软件开发过程中,可以实现程序自动生成程序,大大提高了代码的重用,减少软件出错的几率,并且程序可读性、可扩充性和易维护性都大大地被提高。把这种根据用户输入自动生成软件系统的引擎称为动作推导引擎。相似文献

8.

一种模糊强化学习算法及其在RoboCup中的应用 总被引：1，自引：0，他引：1

高建清王浩于磊方宝富《计算机工程与应用》2006,42(6):52-54

传统的强化学习算法只能解决离散状态空间和动作空间的学习问题。论文提出一种模糊强化学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划。作者在RoboCup环境中验证了这个算法,实现了踢球策略的优化。相似文献

9.

提高强化学习速度的方法研究 总被引：4，自引：0，他引：4

张汝波《计算机工程与应用》2001,37(22):38-40

强化学习一词出自于行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必然增加智能系统的困难性,学习时间增长。强化学习学习速度较慢的原因是没有明确的监督信号。因此,强化学习系统在与环境交互时不得不采取反复试验的方法依靠外部评价信号来调整自己的行为。智能系统必然经过很长的学习过程。如何提高强化学习速度是一个最重要的研究问题。该文从几个方面来讨论提高强化学习速度的方法。相似文献

10.

改进的Q学习算法在作业车间调度中的应用 总被引：3，自引：0，他引：3

王超郭静包振强《计算机应用》2008,28(12):3268-3270

在制造业系统中车间调度是一项关键技术,可以用强化学习中的Q学习实现对车间作业的动态调度。传统的Q学习存在收敛速度慢和容易导致局部收敛的矛盾,为此提出一种改进的Q学习算法。在行为动作上提出了一种双层动作合成的动作组,给出常规数学中“聚度”概念来衡量在某一状态动作组选择的均匀程度,达到既能加速收敛又能防止局部收敛的目的,能有效适应现今复杂多变的动态生产环境。实验表明,该方法运用于动态车间调度中有较好的效果。相似文献

11.

基于强化学习的值迭代算法

崔军晓朱蒙婷王海燕章鹏王辉《数字社区&智能家居》2014,(31):7348-7350

强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。相似文献

12.

基于强化学习的值迭代算法

崔军晓朱蒙婷王海燕章鹏王辉《数字社区&智能家居》2014,(11):7348-7350

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。相似文献

13.

基于核方法的连续动作Actor-Critic学习

陈兴国高阳范顺国俞亚君《模式识别与人工智能》2014,(2):103-110

强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 相似文献

14.

Q学习算法中网格离散化方法的收敛性分析 总被引：6，自引：1，他引：5

蒋国飞高慧琪吴沧浦《控制理论与应用》1999,16(2):194-198

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Ｑ学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Ｌｉｐｓｃｈｉｔｚ连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Ｑ学习算法求得的最优解依概率１收敛于原连续问题的最优解。相似文献

15.

基于强化学习和模糊逻辑的移动机器人导航

卓睿陈宗海陈春林《计算机仿真》2005,22(8):157-162

自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理,然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架,提出了一种基于强化学习和模糊逻辑的学习、规划算法：在对避碰和寻找目标行为进行独立学习后,利用超声波传感器得到的环境信息进行行为选择,使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验,证明了算法的有效性。相似文献

16.

进化操作行为学习模型及在移动机器人避障上的应用

郜园园朱凡宋洪军《计算机应用》2013,33(8):2283-2288

针对移动机器人避障上存在的自适应能力较差的问题,结合遗传算法(GA)的进化思想,以自适应启发评价(AHC)学习和操作条件反射(OC)理论为基础,提出了一种基于进化操作行为学习模型(EOBLM)的移动机器人学习避障行为的方法。该方法是一种改进的AHC学习模式,评价单元采用多层前向神经网络来实现,利用TD算法和梯度下降法进行权值更新,这一阶段学习用来生成取向性信息,作为内在动机决定进化的方向;动作选择单元主要用来优化操作行为以实现状态到动作的最佳映射。优化过程分两个阶段来完成,第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA学习算法搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。通过移动机器人避障仿真实验,结果表明所设计的EOBLM能使机器人通过不断与外界未知环境进行交互主动学会避障的能力,与传统的AHC方法相比其自学习自适应的能力得到加强。相似文献

17.

基于Markov对策的多Agent强化学习模型及算法研究 总被引：19，自引：0，他引：19

高阳周志华何佳洲陈世福《计算机研究与发展》2000,37(3):257-263

在ＭＤＰ,单Ａｇｅｎｔ可以通过强化学习来寻找问题的最优解。但在多Ａｇｅｎｔ系统中,ＭＤＰ模型不再适用。同样极小极大Ｑ算法只能解决采用零和对策模型的ＭＡＳ学习问题。文中采用非零和Ｍａｒｋｏｖ对策作为多Ａｇｅｎｔ系统学习框架,并提出元对策强化学习的学习模型和元对策Ｑ算法。理论证明元对策Ｑ算法收敛在非零和Ｍａｒｋｏｖ对策的元对策最优解。相似文献

18.

强化学习在足球机器人基本动作学习中的应用 总被引：1，自引：0，他引：1

段勇杨淮清崔宝侠徐心和《机器人》2008,30(5):1

主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用．强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛．针对这一问题,提出了基于T-S 模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射．此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题．最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要．相似文献

19.

基于强化学习的未知环境多机器人协作搜集 总被引：2，自引：2，他引：0

下载免费PDF全文

赵杰姜健臧希喆《计算机工程与应用》2007,43(10):19-21

针对多机器人协作复杂搜集任务中学习空间大,学习速度慢的问题,提出了带共享区的双层强化学习算法。该强化学习算法不仅能够实现低层状态-动作对的学习,而且能够实现高层条件-行为对的学习。高层条件-行为对的学习避免了学习空间的组合爆炸,共享区的应用强化了机器人间协作学习的能力。仿真实验结果说明所提方法加快了学习速度,满足了未知环境下多机器人复杂搜集任务的要求。相似文献

20.

利用聚类分析法改进的多Agent协作强化学习方法

张媛张广明袁宇浩《计算机测量与控制》2010,18(4)

针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提出了一种新型的混合强化学习方法,用于改进传统的多agent协作强化学习;该算法基于Friend-or-Foe Q-学习,事先采用聚类分析法对状态空间和动作空间进行预处理,降低空间维数后再进行强化学习,这就避免了同等状态环境下的重复劳动和对动作集的盲目搜索,理论上大大提高了agent的学习速度和算法的收敛性;文章首先进行改进算法的思想概述,然后给出了改进算法的学习框架和算法的一般描述。相似文献