首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对无人船舶在海上复杂航行条件下的自动避碰问题,基于深度竞争Q学习算法及A*算法提出了一种考虑航行经验和避碰规则的无人船舶智能避碰导航方法。通过在强化学习避碰任务和A*局部动态导航的设计中融入船舶的操纵特性,缩减了模型训练和A*算法路径规划的时间,以及将避碰经验规则转化成动态的航行限制线以获得本船周围的全部可航区域,并从全局角度衡量本船的航行态势做出避碰决策,使得避碰决策符合国际海上避碰规则和避让经验的要求。在开阔水域和受限水域中完成的仿真结果表明该方法能够成功避让所有船舶和静态障碍物,具有重要的工程应用价值。  相似文献   

2.
针对复杂环境中船舶实现自动避碰问题,设计了一种基于规则法的智能型专家系统,即水下避碰专家系统.该系统具有多元分层知识库体系结构,采用框架式知识表示方式,实现了水下避碰知识的表示、存储,避免了传统专家系统的“窄台阶”问题.应用模糊理论,分别建立了针对水下静止目标和运动目标的碰撞危险度模型,实现了定性推理与定量计算的结合.给出了水下会遇态势分类模型,总结了水下常见的多种会遇态势.结合所建立的系统模型给出水下多目标避碰仿真示例.仿真实验结果表明,系统能对各种水下避碰情况及时给出正确的避让方案.  相似文献   

3.
为了迅速地搭建船舶避碰仿真平台,采用了HLA的模块化建模思想,既能充分利用现有的功能代码,又能不断添加新的功能模块,省时而高效地完成了仿真任务.首先阐述了基于HLA的船舶避碰仿真平台开发的软硬件环境及平台的体系结构,然后充分把整个船舶避碰仿真平台作为一个联邦,将其按功能划分成若干个联邦成员,按照美国国防部提出的联邦开发的过程--FEDEP进行分布式仿真的设计和开发.想定联邦剧情、划分联邦成员功能、设计FOM/SOM文件,最终用VC2003.net进行各联邦成员的程序开发,建立起了基于HLA的两船避碰仿真平台.在想定剧情下的避碰仿真试验结果表明,该平台能够很好地实现船舶避碰的功能,同时,该分布式避碰仿真平台比集中式仿真具有更好的灵活性和可扩充性,便于未来向复杂的多功能避碰平台的演化和升级.  相似文献   

4.
基于局部模型的水下机器人避碰方法研究   总被引:2,自引:0,他引:2  
提出了基于局部模型的水下机器人的避碰方法。文中首先分析了水下机器人的避碰声纳的工作机理及存在的问题,然后介绍了基于栅格的局部模型的建立方法,根据局部模型确定出机器人周围障碍物的分布情况;最后根据规则进行避碰规划。文中给出了详细的仿真结果。  相似文献   

5.
首先介绍了基于表格Q-learning的方法,然后提出了一种用神经网络实现的Q-learning方法,利用这种方法实现机器人避磁糙为学习,燕进行了领导具试验,最后讨论了提高强化学习速度的方法。  相似文献   

6.
航海技术的发展使得碰避自动化也实现了同步提升,而在碰避自动化的研究中,需要加强对新航海技术的运用,切实提升碰避自动化的整体水平.本文从航海自动化的构成和碰避自动化的发展现状入手,分析了新航海技术不断发展的背景下对船舶碰避自动化的影响,指出传统碰避措施的缺陷,提出了应用AIS技术实现船舶碰避自动化的具体运用方法.  相似文献   

7.
基于遗传算法的水下智能机器人避碰行为学习   总被引:1,自引:1,他引:0  
智能机器人行为学习可以看成是从感知空间到动作空间中寻找一种映射文中采用遗传算法来实现寻找一种最佳映射,使机器人具有较好的避磁能力,把机器人旋转角和平移距离分别划分成7个等级和4个等级,每一个等级看成机器人的一种行为,把机器人发生碰撞之前所走的路径长度作适度函数,通过遗传算法中的选择,交叉和变异等操作机器人学会避碰行为,在文中的最后给出了仿真的实验结果。  相似文献   

8.
为了使移动机器人各组件可快速组装、便于维修,设计了一种新颖的模块化移动机器人,由驱动模块、控制模块、传感模块及标准连接模块组成.为了解决移动机器人在复杂未知环境下的路径规划问题,提出了基于"感知-动作"的模糊逻辑控制体系结构,采用基于"感知-动作"的模糊逻辑控制方法分别对模块化移动机器人的路径规划进行了二维和三维仿真.仿真结果显示了该模糊逻辑控制方法的稳定性和实用性.在三维复杂环境下应用该方法仿真实现了单个及多个机器人的避碰运动.  相似文献   

9.
以行人仿真中的避碰问题为研究对象,提出了阻塞角的概念。建立了障碍物对当前行人的阻塞角,进而确定了行人需要绕行的阻塞区域。根据路径最短原则,选择对同向行人和静态障碍物的绕行路径。结合我国行人右侧行走习惯,通过降低阻塞角的终边的优先级实现对向行人避碰。针对行人被阻塞角包围的特殊情况,提出了根据目标方向上距当前行人最近的行人的速度及行走方向,确定当前行人是否行走及行走速度。最后,对该避碰方法的实现过程进行仿真。结果表明,该方法不需要复杂的参数标定,大大简化了行人仿真过程中的建模工作。  相似文献   

10.
为研究交叉相遇局面让路船自动避碰方案,通过局面要素将局面分为4个阶段,基于避碰规则和海员通常做法研究各个阶段自动避碰行动。紧迫局面形成点和紧迫危险形成点的计算以MMG模型和圆形船舶领域模型为基础,依靠基于龙格库塔方法和二分法的数学模型实现。改进的碰撞危险度模型以空间碰撞危险度和时间碰撞危险度基于海员通常做法合成。一种新的最有效避让方式比较模型用于产生碰撞危险产生以前和紧急情况下的自动避碰方案。以一艘交叉相遇局面让路船为对象进行仿真,验证采用的数学模型并生成应采取的自动避碰行动。结果表明:MMG模型精度满足要求;基于二分法的局面要素数值化计算模型能可靠、快速地收敛;可生成符合避碰规则和海员通常做法的自动避碰方案。  相似文献   

11.
针对移动机器人在局部可观测的非线性动态环境下,实现轨迹跟踪和动态避障时容易出错和不稳定的问题,提出了基于深度强化学习的视觉感知与决策方法.该方法以一种通用的形式将卷积神经网络的感知能力与强化学习的决策能力结合在一起,通过端对端的学习方式实现从环境的视觉感知输入到动作的直接输出控制,将系统环境感知与决策控制直接形成闭环,其中最优决策策略是通过最大化机器人与动力学环境交互的累计奖回报中学习获得.仿真实验结果证明,该方法可以满足多任务智能感知与决策要求,较好地解决了传统算法存在的容易陷入局部最优、在相近的障碍物群中震荡且不能识别路径、在狭窄通道中摆动以及障碍物附近目标不可达等问题,并且大大提高了机器人轨迹跟踪和动态避障的实时性和适应性.  相似文献   

12.
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。  相似文献   

13.
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。  相似文献   

14.
Robot path planning in dynamic environment based on reinforcement learning   总被引:4,自引:0,他引:4  
0 INTRODUCTIONOneofthemostimportantproblemsinmobilerobotcontrolispathplanning .Therearealreadysomemeth odsthatsolvepathplanningproblems ,suchasartificialpotentialmethodandgridmethod .Inthesemethods,itisnecessarytoestablishtheenvironment’smodelbeforeperfo…  相似文献   

15.
Xie  ZongWu  Zhang  Qi  Jiang  ZaiNan  Liu  Hong 《中国科学:技术科学(英文版)》2020,63(8):1325-1334
Learning from demonstration(LfD) is an appealing method of helping robots learn new skills. Numerous papers have presented methods of LfD with good performance in robotics. However, complicated robot tasks that need to carefully regulate path planning strategies remain unanswered. Contact or non-contact constraints in specific robot tasks make the path planning problem more difficult, as the interaction between the robot and the environment is time-varying. In this paper, we focus on the path planning of complex robot tasks in the domain of LfD and give a novel perspective for classifying imitation learning and inverse reinforcement learning. This classification is based on constraints and obstacle avoidance. Finally, we summarize these methods and present promising directions for robot application and LfD theory.  相似文献   

16.
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%.  相似文献   

17.
强化学习与深度学习结合的深度强化学习(Deep Reinforcement Learning,DRL)模型,目前被广泛应用于机器人控制领域。机器人强化学习需要在3D仿真环境中训练模型,然而在缺乏环境先验知识的情况下,在3D环境中进行试错学习会导致训练周期长、开发成本高的问题。因此提出一种贯通2D到3D的机器人强化学习训练模式,将计算量大、耗时多的工作部署到2D环境中,再把算法结果迁移到3D环境中进行测试。实验证明,这种训练模式能使基于个人电脑的机器人强化学习的开发效率提升5倍左右。  相似文献   

18.
基于模糊Q学习的多机器人系统研究   总被引:1,自引:0,他引:1  
多机器人系统的行为学习是提高机器人适应能力的一种途径.在机器人行为学习过程中,难于得到比较理想的监督学习的教师信号,因此该文尝试采用强化学习方法来解决多机器人的行为学习问题.考虑到强化学习的学习过程较长,文章引入能体现人的经验的模糊推理规则来提高机器人的学习速度.针对机器人编队行为学习问题,首先对每一个行为建立一个较完备的模糊规则库,然后利用Q学习来调整行为融合的参数.最后以柱形、线形和菱形队形为研究背景,通过仿真实验可以看出经过一段时间学习后机器人在充满障碍物的环境中运动自如,各种队形总体上都保持良好,机器人具有一定的自适应性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号