期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Q—学习及其在智能机器人局部路径规划中的应用研究 总被引：2，自引：1，他引：1

张汝波杨广铭《计算机研究与发展》1999,36(12):1430-1436

强化学习－词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作。在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,有杉强化学习方法来实现智能机器人避碰行为学习。Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制相似文献

2.

Q-学习及其在智能机器人局部路径规划中的应用研究 总被引：9，自引：3，他引：6

张汝波杨广铭顾国昌张国印《计算机研究与发展》1999,36(12):1430-1436

强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作．在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习．Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制的Ｑ－学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果相似文献

3.

基于强化学习的智能机器人避碰方法研究 总被引：9，自引：0，他引：9

张汝波周宁顾国昌张国印《机器人》1999,21(3):204-209

本文采用强化学习方法实现了智能机器人的避碰行为学习．文中首先介绍了强化学习原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析．相似文献

4.

强化学习在足球机器人基本动作学习中的应用 总被引：1，自引：0，他引：1

段勇杨淮清崔宝侠徐心和《机器人》2008,30(5):1

主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用．强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛．针对这一问题,提出了基于T-S 模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射．此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题．最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要．相似文献

5.

动态未知环境下基于相对坐标系的移动机器人实时运动规划 总被引：2，自引：1，他引：2

张凤谈大龙《机器人》2004,26(5):434-438

提出了一种简单、新颖的在动态未知环境下的移动机器人运动规划方法 .此方法基于相对坐标系 ,通过传感器信息实时调整机器人的行为来实现规划 .在规划过程中 ,机器人有两种行为 :向目标运动和避碰 ,且避碰行为具有优先权 .机器人两种行为的切换是基于加速度空间的 ,首先解决的是避碰问题 ,而向目标运动是作为避碰的反问题来考虑的 .仿真研究验证了此规划方法的有效性相似文献

6.

基于强化学习和模糊逻辑的移动机器人导航

卓睿陈宗海陈春林《计算机仿真》2005,22(8):157-162

自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理,然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架,提出了一种基于强化学习和模糊逻辑的学习、规划算法：在对避碰和寻找目标行为进行独立学习后,利用超声波传感器得到的环境信息进行行为选择,使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验,证明了算法的有效性。相似文献

7.

一种动态环境下移动机器人的路径规划方法 总被引：26，自引：2，他引：26

朴松昊洪炳熔《机器人》2003,25(1):18-21

本文提出了在动态环境中，移动机器人的一种路径规划方法，适用于环境中存在已知和未知、静止和运动障碍物的复杂情况．采用链接图法建立了机器人工作空间模型，整个系统由全局路径规划器和局部路径规划器两部分组成．在全局路径规划器中，应用遗传算法规划出初步全局优化路径．在局部路径规划器中，设计了三种基本行为：跟踪全局路径的行为、避碰的行为和目标制导的行为，采用基于行为的方法进一步优化路径．其中，避碰的行为是通过强化学习得到的．仿真和实验结果表明所提方法简便可行，能够满足移动机器人导航的高实时性要求．相似文献

8.

浅谈智能机器人避碰行为的学习方法

邢高峰《数字社区&智能家居》2007,3(8):829-829,837

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习。在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析。相似文献

9.

智能机器人避碰行为学习方法研究

孙羽张英夫张汝波《计算机工程与应用》2001,37(13):132-134

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习。在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析。相似文献

10.

浅谈智能机器人避碰行为的学习方法

邢高峰《数字社区&智能家居》2007,(15)

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习.在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析. 相似文献

11.

多机器人动态编队的强化学习算法研究 总被引：8，自引：0，他引：8

王醒策张汝波顾国昌《计算机研究与发展》2003,40(10):1444-1450

在人工智能领域中，强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注．随着分布式人工智能中多智能体理论的不断发展，分布式强化学习算法逐渐成为研究的重点．首先介绍了强化学习的研究状况，然后以多机器人动态编队为研究模型，阐述应用分布式强化学习实现多机器人行为控制的方法．应用SOM神经网络对状态空间进行自主划分，以加快学习速度；应用BP神经网络实现强化学习，以增强系统的泛化能力；并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益．为了明确控制任务，系统使用黑板通信方式进行分层控制．最后由仿真实验证明该方法的有效性．相似文献

12.

A multi-agent reinforcement learning approach to robot soccer

Yong Duan Bao Xia Cui Xin He Xu 《Artificial Intelligence Review》2012,38(3):193-211

In this paper, a multi-agent reinforcement learning method based on action prediction of other agent is proposed. In a multi-agent system, action selection of the learning agent is unavoidably impacted by other agents’ actions. Therefore, joint-state and joint-action are involved in the multi-agent reinforcement learning system. A novel agent action prediction method based on the probabilistic neural network (PNN) is proposed. PNN is used to predict the actions of other agents. Furthermore, the sharing policy mechanism is used to exchange the learning policy of multiple agents, the aim of which is to speed up the learning. Finally, the application of presented method to robot soccer is studied. Through learning, robot players can master the mapping policy from the state information to the action space. Moreover, multiple robots coordination and cooperation are well realized. 相似文献

13.

Reinforcement learning of a continuous motor sequence with hidden states

《Advanced Robotics》2013,27(10):1215-1229

Reinforcement learning is the scheme for unsupervised learning in which robots are expected to acquire behavior skills through self-explorations based on reward signals. There are some difficulties, however, in applying conventional reinforcement learning algorithms to motion control tasks of a robot because most algorithms are concerned with discrete state space and based on the assumption of complete observability of the state. Real-world environments often have partial observablility; therefore, robots have to estimate the unobservable hidden states. This paper proposes a method to solve these two problems by combining the reinforcement learning algorithm and a learning algorithm for a continuous time recurrent neural network (CTRNN). The CTRNN can learn spatio-temporal structures in a continuous time and space domain, and can preserve the contextual flow by a self-organizing appropriate internal memory structure. This enables the robot to deal with the hidden state problem. We carried out an experiment on the pendulum swing-up task without rotational speed information. As a result, this task is accomplished in several hundred trials using the proposed algorithm. In addition, it is shown that the information about the rotational speed of the pendulum, which is considered as a hidden state, is estimated and encoded on the activation of a context neuron. 相似文献

14.

强化学习中资格迹的作用

孙羽张汝波徐东《计算机工程》2002,28(5):128-129,198

强化学习一词来自行为心理学，该学科把学习看作反复试验的过程，强化学习系统中的资格迹用来解决时间信度分配问题，文章介绍了资格迹的基本原理和实现方法。相似文献

15.

一种基于联合神经网络的连续空间行动者评论家学习方法

下载免费PDF全文

杨金鸿皇甫立谭斌熊璋《智能安全》2022,1(2):19-25

在复杂的连续空间应用场景中,经典的离散空间强化学习方法已难以满足实际需要,而已有的连续空间强化学习方法主要采用线性拟合方法逼近状态值函数和动作选择函数,存在精度不高的问题。提出一种基于联合神经网络非线性行动者评论家方法(actor-critic approach based on union neural network, UNN-AC)。该方法将动作选择函数和评论值函数表示为统一的联合神经网络模型,利用联合神经网络非线性拟合状态值函数和动作选择概率。与已有的线性拟合方法相比,非线性UNN-AC提高了对评论值函数和动作选择函数的拟合精度。实验结果表明,UNN-AC算法能够有效求解连续空间中近似最优策略问题。与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点。相似文献

16.

基于强化学习的煤矸石分拣机械臂智能控制算法研究

张永超于智伟丁丽林《工矿自动化》2021,47(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

17.

基于径向基神经网络的多步Sarsa控制算法

司彦娜普杰信于晓升司鹏举孙力帆《控制与决策》2023,38(4):944-950

针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function, RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间表达问题;然后,结合资格迹机制形成多步Sarsa算法,通过记录经历过的状态提高系统的学习效率;最后,采用温度参数衰减的方式改进softmax策略,优化动作的选择概率,达到平衡探索和利用关系的目的. MountainCar任务的仿真实验表明:所提出算法经过少量训练能够有效实现无模型情况下的连续非线性系统控制;与单步算法相比,该算法完成任务所用的平均收敛步数更少,效果更稳定,表明非线性值函数近似与多步算法结合在控制任务中同样可以具有良好的性能. 相似文献

18.

基于蚁群算法的Hopfield神经网络在多空间站路径规划的应用研究* 总被引：1，自引：0，他引：1

金飞虎郭琦《计算机应用研究》2010,27(1):51-53

空间机器人每次携带的燃料有限,提高空间机器人的工作效率以及延长其在轨寿命研究具有重要意义,分析了空间机器人多空间站访问问题。为了弥补传统路径规划方法容易陷入局部极小点的问题,提出利用基于蚁群算法的Hopfield神经网络来解决空间机器人多空间站访问问题。仿真实验结果表明,基于蚁群算法的Hopfiled神经网络用于多空间站访问问题,收敛速度要比Hopfield神经网络快,且比Hopfield神经网络易于跳出局部极点,该算法有利于解决多空间站路径规划问题。相似文献