期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

智能机器人避碰行为学习方法研究

孙羽张英夫张汝波《计算机工程与应用》2001,37(13):132-134

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习。在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析。相似文献

2.

浅谈智能机器人避碰行为的学习方法

邢高峰《数字社区&智能家居》2007,(15)

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习.在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析. 相似文献

3.

浅谈智能机器人避碰行为的学习方法

邢高峰《数字社区&智能家居》2007,3(8):829-829,837

该文采用了两种学习方法,即遗传算法和强化学习实现了智能机器人的避碰行为学习。在介绍了两种学习机制后,给出了仿真实验结果,并对两种学习方法的异同进行了分析。相似文献

4.

基于强化学习和模糊逻辑的移动机器人导航

卓睿陈宗海陈春林《计算机仿真》2005,22(8):157-162

自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理，然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架，提出了一种基于强化学习和模糊逻辑的学习、规划算法：在对避碰和寻找目标行为进行独立学习后，利用超声波传感器得到的环境信息进行行为选择，使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验，证明了算法的有效性。相似文献

5.

基于速度变化空间的移动机器人动态避碰规划

朱齐丹仲训昱张智《机器人》2009,31(6):1

研究了移动机器人对运动障碍物的动态避碰．针对以往速度障碍法在动态避碰应用中存在的问题,制订了相应的改进方法．综合考虑障碍物速度的动态变化和碰撞时间、碰撞距离,在速度变化空间中,基于避碰行为动力学原理,设计了新的优化评价函数,采用双障碍物检测窗口进行动态避碰规划．仿真实验表明,该方法有效地克服了避碰规划的保守性,提高了机器人运动的安全性,并能实现对运动目标的及时追踪．相似文献

6.

一种动态环境下移动机器人的路径规划方法 总被引：26，自引：2，他引：26

朴松昊洪炳熔《机器人》2003,25(1):18-21

本文提出了在动态环境中，移动机器人的一种路径规划方法，适用于环境中存在已知和未知、静止和运动障碍物的复杂情况．采用链接图法建立了机器人工作空间模型，整个系统由全局路径规划器和局部路径规划器两部分组成．在全局路径规划器中，应用遗传算法规划出初步全局优化路径．在局部路径规划器中，设计了三种基本行为：跟踪全局路径的行为、避碰的行为和目标制导的行为，采用基于行为的方法进一步优化路径．其中，避碰的行为是通过强化学习得到的．仿真和实验结果表明所提方法简便可行，能够满足移动机器人导航的高实时性要求．相似文献

7.

基于神经网络的进化机器人组合行为方法研究 总被引：2，自引：0，他引：2

王洪燕杨敬安蒋培《计算机研究与发展》2000,37(12):1457-1464

为了克服传统机器人设计方法存在的局限性,提高机器人的自适应能力,采用神经网络方法实现了进化机器人避碰、趋近及其组合行为学习,首先,提出了新的机器人模拟环境和机器人模型,结合了采用神经网络实现进化学习系统的方法。其次,对具有进化学习机制的机器人基本行为和组合行为学习系统进行了仿真,并通过仿真证明了新模型不要求环境知识的完备性,机器人具有环境自适应学习能力,还具有结构简洁、易扩展等特点,最后,对仿真结果进行分析与讨论,并提出了进一步研究方向。相似文献

8.

自组织映射神经网络量化机器人强化学习方法研究

孙羽张汝波顾国昌《小型微型计算机系统》2002,23(5):558-560

强化学习一词来自于行为心理学，这门学科把行为学习看成反复试验的过程，从而把环境状态映射成相应的动作。在设计智能机器人过程中，如何来实现行为主义的思想，在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为，采用强化学习方法来实现智能机器人避碰行为学习。为了提高机器人学习速度，在机器人局部路径规划中的状态空量化就显得十分重要。本文采用自组织映射网络的方法来进行空间的量化。由于自组织映射网络本身所具有的自组织特性，使得它在进行空间量化时就能够较好地解决适应性灵活性问题，本文在对状态空间进行自组织量化的基础方法上，采用强化学习。解决了机器人避碰行为的学习问题，取得了满意的学习结果。相似文献

9.

Q-学习及其在智能机器人局部路径规划中的应用研究 总被引：9，自引：3，他引：6

张汝波杨广铭顾国昌张国印《计算机研究与发展》1999,36(12):1430-1436

强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作．在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作？文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习．Ｑ－学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Ｑ－学习的基本算法之后,提出了具有竞争思想和自组织机制的Ｑ－学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果相似文献

10.

基于视频检测的自动避碰时刻研究

田双刘敬培《计算机与现代化》2014,(10):1-4

对合适的自动避碰时刻进行研究,通过对交通场景进行俯视拍摄的方法获得10．5 h真实的冲突视频录像,借助视频检测技术提取并分析808个冲突避碰行为样本,基于交通冲突技术的基本理论得出2点结论：1）群体驾驶人何时实施避碰取决于至碰时间TTC;2）避碰时刻与临界时刻之间具有至少1 s的裕量。将自动避碰系统的制动时刻设定在上述2个时刻之间,足够现有技术实现自动避碰任务。相似文献

11.

人群环境中基于深度强化学习的移动机器人避障算法

孙立香孙晓娴刘成菊靖文《信息与控制》2022,51(1):107-118

为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互（crowd interaction）对值函数网络做了改进,通过行人角度网格（angel pedestrian grid）对行人之间的交互信息进行提取,并通过注意力机制（attention mechanism）提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为（human spatial behavior）设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。相似文献

12.

INTELLIGENT SENSOR FUSION AND LEARNING FOR AUTONOMOUS ROBOT NAVIGATION

K. C. Tan Y. J. Chen L. F. Wang D. K. Liu 《Applied Artificial Intelligence》2013,27(5):433-456

ABSTRACT

This paper presents the design and implementation of an autonomous robot navigation system for intelligent target collection in dynamic environments. A feature-based multi-stage fuzzy logic (MSFL) sensor fusion system is developed for target recognition, which is capable of mapping noisy sensor inputs into reliable decisions. The robot exploration and path planning are based on a grid map oriented reinforcement path learning system (GMRPL), which allows for long-term predictions and path adaptation via dynamic interactions with physical environments. In our implementation, the MSFL and GMRPL are integrated into subsumption architecture for intelligent target-collecting applications. The subsumption architecture is a layered reactive agent structure that enables the robot to implement higher-layer functions including path learning and target recognition regardless of lower-layer functions such as obstacle detection and avoidance. The real-world application using a Khepera robot shows the robustness and flexibility of the developed system in dealing with robotic behaviors such as target collecting in the ever-changing physical environment. 相似文献

13.

基于深度强化学习的机器人运动控制研究进展

董豪杨静李少波王军段仲静《控制与决策》2022,37(2):278-292

复杂未知环境下智能感知与自动控制是目前机器人在控制领域的研究热点之一,而新一代人工智能为其实现智能自动化赋予了可能.近年来,在高维连续状态-动作空间中,尝试运用深度强化学习进行机器人运动控制的新兴方法受到了相关研究人员的关注.首先,回顾了深度强化学习的兴起与发展,将用于机器人运动控制的深度强化学习算法分为基于值函数和策略梯度2类,并对各自典型算法及其特点进行了详细介绍;其次,针对仿真至现实之前的学习过程,简要介绍5种常用于深度强化学习的机器人运动控制仿真平台;然后,根据研究类型的不同,综述了目前基于深度强化学习的机器人运动控制方法在自主导航、物体抓取、步态控制、人机协作以及群体协同等5个方面的研究进展;最后,对其未来所面临的挑战以及发展趋势进行了总结与展望. 相似文献

14.

基于Spark的分布式机器人强化学习训练框架

下载免费PDF全文

方伟黄增强徐建斌黄羿马新强《图学学报》2019,40(5):852

强化学习能够通过自主学习的方式对机器人难以利用控制方法实现的各种任务进行训练完成,有效避免了系统设计人员对系统建模或制定规则。然而,强化学习在机器人开发应用领域中训练成本高昂,需要花费大量时间成本、硬件成本实现学习训练,虽然基于仿真可以一定程度减少硬件成本,但对类似 Gazebo 这样的复杂机器人训练平台,仿真过程工作效率低,数据采样耗时长。为了有效解决这些问题,针对机器人仿真过程的平台易用性、兼容性等方面进行优化,提出一种基于 Spark 的分布式强化学习框架,为强化学习的训练与机器人仿真采样提供分布式支持,具有高兼容性、健壮性的特性。通过实验数据分析对比,表明本系统框架不仅可有效提高机器人的强化学习模型训练速度,缩短训练时间花费,且有助于节约硬件成本。相似文献

15.

面向机器人系统的虚实迁移强化学习综述

林谦余超伍夏威董银昭徐昕张强郭宪《软件学报》2024,35(2):711-738

近年来, 基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功, 为机器人行为控制策略优化提供一个现实可行的解决方案. 但在真实世界中收集交互样本存在高成本以及低效率等问题, 因此仿真环境被广泛应用于机器人强化学习训练过程中. 通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练, 并将学习策略迁移至真实环境, 能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题. 然而, 由于仿真环境与真实环境存在差异, 仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现. 针对这一问题, 虚实迁移强化学习方法被提出用以缩小环境差异, 进而实现有效的策略迁移. 按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象, 提出一个虚实迁移强化学习系统的流程框架, 并基于此框架将现有相关工作分为3大类: 基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法, 并对每一分类中的代表技术与关联工作进行阐述. 最后, 讨论虚实迁移强化学习研究领域面临的机遇和挑战. 相似文献

16.

Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge

下载免费PDF全文

Lan Jiang Hongyun Huang Zuohua Ding 《IEEE/CAA Journal of Automatica Sinica》2020,7(4):1179-1189

Path planning and obstacle avoidance are two challenging problems in the study of intelligent robots. In this paper, we develop a new method to alleviate these problems based on deep Q-learning with experience replay and heuristic knowledge. In this method, a neural network has been used to resolve the “curse of dimensionality” issue of the Q-table in reinforcement learning. When a robot is walking in an unknown environment, it collects experience data which is used for training a neural network; such a process is called experience replay. Heuristic knowledge helps the robot avoid blind exploration and provides more effective data for training the neural network. The simulation results show that in comparison with the existing methods, our method can converge to an optimal action strategy with less time and can explore a path in an unknown environment with fewer steps and larger average reward. 相似文献