期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Q-学习及其在智能机器人局部路径规划中的应用研究 总被引：9，自引：3，他引：6

张汝波杨广铭顾国昌张国印《计算机研究与发展》1999,36(12):1430-1436

强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作．在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习．Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制的Ｑ－学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果相似文献

2.

Q—学习及其在智能机器人局部路径规划中的应用研究 总被引：2，自引：1，他引：1

张汝波杨广铭《计算机研究与发展》1999,36(12):1430-1436

强化学习－词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作。在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,有杉强化学习方法来实现智能机器人避碰行为学习。Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制相似文献

3.

强化学习研究综述 总被引：10，自引：2，他引：8

陈学松杨宜民a 《计算机应用研究》2010,27(8):2834-2838

在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent 系统问题等若干领域的成功应用和未来的发展方向。相似文献

4.

深度强化学习在智能制造中的应用展望综述

下载免费PDF全文

孔松涛刘池池史勇谢义王堃《计算机工程与应用》2021,57(2):49-59

深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的研究进行概述,对深度强化学习基本原理进行介绍,包括深度学习和强化学习。介绍深度强化学习算法应用的理论方法,在此基础对深度强化学习的算法进行了分类介绍,分别介绍了基于值函数和基于策略梯度的强化学习算法,列举了这两类算法的主要发展成果,以及其他相关研究成果。对深度强化学习在智能制造的典型应用进行分类分析。对深度强化学习存在的问题和未来发展方向进行了讨论。相似文献

5.

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

6.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。相似文献

7.

深度强化学习研究综述

赵星宇丁世飞《计算机科学》2018,45(7):1-6

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。相似文献

8.

多代理强化学习在智能教学系统中的应用

李洋《计算机与数字工程》2010,38(5):78-80,174

教学的个性化和智能化是智能教学系统研究的重点和难点。文章采用智能代理技术模拟系统中学生的智能和行为方式,将强化学习理论应用于多代理体,设计了结合资格迹理论的强化学习算法,并用以生成和调整适合于每个学生个体的教学内容和教学策略。多代理体技术实现了教学的个性化,强化学习算法使得教学策略具有智能化。实验结果表明,新的算法较原有算法更为有效。相似文献

9.

逆向强化学习研究综述

张立华刘全黄志刚朱斐《软件学报》2023,34(10):4772-4803

逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 相似文献

10.

深度强化学习进展: 从AlphaGo到AlphaGo Zero 总被引：1，自引：0，他引：1

赵冬斌唐振韬邵坤朱圆恒《控制理论与应用》2017,34(12):1529-1546

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义. 相似文献

11.

基于神经网络集成的强化学习算法系统设计

叶德谦杨樱金大兵《计算机工程与应用》2006,42(12):97-99

BP神经网络在目前的非线性系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行,这对一般系统来说是非常麻烦和不现实的。对此文章提出了一种基于神经网络集成的强化学习BP算法,通过强化学习体系来实现体统的自学习,通过网络集成来达到初始数据的预处理,提高系统的泛化能力,并在实际应用中取得较好的效果。相似文献

12.

提高强化学习速度的方法研究 总被引：4，自引：0，他引：4

张汝波《计算机工程与应用》2001,37(22):38-40

强化学习一词出自于行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必然增加智能系统的困难性,学习时间增长。强化学习学习速度较慢的原因是没有明确的监督信号。因此,强化学习系统在与环境交互时不得不采取反复试验的方法依靠外部评价信号来调整自己的行为。智能系统必然经过很长的学习过程。如何提高强化学习速度是一个最重要的研究问题。该文从几个方面来讨论提高强化学习速度的方法。相似文献

13.

基于强化学习的智能机器人避碰方法研究 总被引：9，自引：0，他引：9

张汝波周宁顾国昌张国印《机器人》1999,21(3):204-209

本文采用强化学习方法实现了智能机器人的避碰行为学习．文中首先介绍了强化学习原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析．相似文献

14.

自组织映射神经网络量化机器人强化学习方法研究

孙羽张汝波顾国昌《小型微型计算机系统》2002,23(5):558-560

强化学习一词来自于行为心理学，这门学科把行为学习看成反复试验的过程，从而把环境状态映射成相应的动作。在设计智能机器人过程中，如何来实现行为主义的思想，在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为，采用强化学习方法来实现智能机器人避碰行为学习。为了提高机器人学习速度，在机器人局部路径规划中的状态空量化就显得十分重要。本文采用自组织映射网络的方法来进行空间的量化。由于自组织映射网络本身所具有的自组织特性，使得它在进行空间量化时就能够较好地解决适应性灵活性问题，本文在对状态空间进行自组织量化的基础方法上，采用强化学习。解决了机器人避碰行为的学习问题，取得了满意的学习结果。相似文献

15.

提高迭代自学习控制算法收敛速度初探 总被引：9，自引：1，他引：8

魏燕定《控制理论与应用》2001,18(2):314-316

从学习律、学习律参数、输出误差等三方面讨论了迭代自学习算法的收敛速度,为提高该算法的收剑速度得到了一些有用的结论。相似文献

16.

强化学习中资格迹的作用

孙羽张汝波徐东《计算机工程》2002,28(5):128-129,198

强化学习一词来自行为心理学，该学科把学习看作反复试验的过程，强化学习系统中的资格迹用来解决时间信度分配问题，文章介绍了资格迹的基本原理和实现方法。相似文献

17.

多机器人动态编队的强化学习算法研究 总被引：8，自引：0，他引：8

王醒策张汝波顾国昌《计算机研究与发展》2003,40(10):1444-1450

在人工智能领域中，强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注．随着分布式人工智能中多智能体理论的不断发展，分布式强化学习算法逐渐成为研究的重点．首先介绍了强化学习的研究状况，然后以多机器人动态编队为研究模型，阐述应用分布式强化学习实现多机器人行为控制的方法．应用SOM神经网络对状态空间进行自主划分，以加快学习速度；应用BP神经网络实现强化学习，以增强系统的泛化能力；并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益．为了明确控制任务，系统使用黑板通信方式进行分层控制．最后由仿真实验证明该方法的有效性．相似文献

18.

基于强化学习和模糊逻辑的移动机器人导航

卓睿陈宗海陈春林《计算机仿真》2005,22(8):157-162

自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理，然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架，提出了一种基于强化学习和模糊逻辑的学习、规划算法：在对避碰和寻找目标行为进行独立学习后，利用超声波传感器得到的环境信息进行行为选择，使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验，证明了算法的有效性。相似文献

19.

机器人足球赛中基于增强学习的任务分工 总被引：6，自引：0，他引：6

顾冬雷陈卫东席裕庚《机器人》2000,22(6):482-489

本文研究了机器人足球赛中利用增强学习进行角色分工的问题,通过仿真试验和理论分析,指出文［1］中采取无限作用范围衰减奖励优化模型(infinite horizon disc ou nted model)的Q学习算法对该任务不合适,并用平均奖励模型(average reward model)对算法进行了改进,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍．相似文献