共查询到20条相似文献,搜索用时 15 毫秒
1.
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。 相似文献
2.
针对移动机器人在局部可观测的非线性动态环境下,实现轨迹跟踪和动态避障时容易出错和不稳定的问题,提出了基于深度强化学习的视觉感知与决策方法.该方法以一种通用的形式将卷积神经网络的感知能力与强化学习的决策能力结合在一起,通过端对端的学习方式实现从环境的视觉感知输入到动作的直接输出控制,将系统环境感知与决策控制直接形成闭环,其中最优决策策略是通过最大化机器人与动力学环境交互的累计奖回报中学习获得.仿真实验结果证明,该方法可以满足多任务智能感知与决策要求,较好地解决了传统算法存在的容易陷入局部最优、在相近的障碍物群中震荡且不能识别路径、在狭窄通道中摆动以及障碍物附近目标不可达等问题,并且大大提高了机器人轨迹跟踪和动态避障的实时性和适应性. 相似文献
3.
随着国民经济持续稳定快速发展,,输电线路的巡检工作量日益加大,传统人工巡检已经不能满足当前输电线路巡检的需求。无人机电力巡线能够较好弥补人工巡检的不足,提高电力巡检作业的工作效率。为了获得精确的无人机与输电线路、杆塔以及附近障碍物的距离信息,采用了多传感器融合技术,通过对巡检过程中可能出现的障碍物进行建模,建立最小安全空间模型和输电线路周围电场模型,提出基于模糊神经网络的方法,对无人机电力巡线的避障技术进行了研究。仿真结果表明,该方法可以有效实现无人机在电力巡线中对障碍物的躲避。 相似文献
4.
针对旋翼无人机追踪场景中常用的PID控制方法与视觉伺服控制方法的不足,该文尝试将视觉伺服控制与强化学习结合,提出了一种基于强化学习的旋翼无人机智能追踪方法。首先使用基于图像的视觉伺服实现旋翼无人机的闭环控制,然后建立使用Sarsa学习算法调节伺服增益的强化学习模型,通过训练可以使得旋翼无人机自主选择视觉伺服增益。该文设计了旋翼无人机在实物场景与仿真场景下的运动目标追踪实验,实验结果论证了该方法相对于PID控制与基于图像的视觉伺服控制方法具有更好的追踪效果。 相似文献
5.
神经网络的拓扑结构对网络的有效性起着十分重要的作用,网络建模中的主要困难就是如何有效地控制网络模型的结构进化趋势和复杂度.提出一种基于强化学习的进化神经网络(RL-EANN),采用强化学习方法对网络进化群体与外界环境交互的效果进行评价,使其无需任何先验知识即可进行学习进化,通过强化信号的约束来控制网络群体的拓扑结构进化趋势.并在移动机器人避障导航仿真实验中证明,采用RL-EANN能使仿真机器人在不确定环境中快速有效地学习避障和接近目标,取得较好的导航效果,实践证明该方法的合理性和有效性. 相似文献
6.
针对机器人避障研究在连续状态空间下的环境泛化问题,提出一种基于深度强化学习的机器人避障方法。该方法引入像素点碰撞检测模块,并结合像素点碰撞模拟距离传感器,获得机器人与任意形态障碍物之间的距离和是否碰撞等信息。在深度强化学习过程中,移动机器人面对未知环境,通过行走获得经验数据训练神经网络,更新网络参数,优化机器人行为决策,实现避障任务。实验结果表明,在机器人避障过程中引入像素点碰撞检测能有效解决环境泛化问题,且动静态环境中训练出的网络模型具有较好的泛化能力。 相似文献
7.
提出一种快速的多旋翼无人机自主避障算法。利用RGB-D相机获取场景对应的深度图,采用分层策略对深度图像进行描述,以区分障碍物与非障碍物;再对场景的深度图像以区域块搜索的方式寻找无人机的避障路径,进而达到自主避障的效果。为了验证该算法的可行性,在ROS系统上进行仿真和实验,结果表明该方法耗时少、精度高、可靠性强。 相似文献
8.
为了提高无人作战效率,将深度强化学习应用于雷达对抗侦察无人机的航线规划中.首先对雷达对抗的侦察行动进行分析,建立无人机飞行航线仿真与分幕评价侦察效果的模型;然后根据训练强化学习智能体的需求,对规划航线过程中所需信息进行了参数化,以雷达对抗侦察行动的特点设计了动作与奖励机制,给出了适用的智能体神经网络结构和训练算法.仿真结果表明,与两种固定航线的规划策略相比,采用本文深度强化学习的航线规划方法,在平均收益上提高了37%,完成既定侦察任务次数提高了超过1.5倍,完成任务平均消耗的航程减少了13%. 相似文献
9.
物理层安全是无线通信实现安全通信的一种有效手段,无人机基站在存在地面窃听者的情况下向地面合法用户传输机密信息时,已有研究一般采用离线方法对无人机基站的飞行轨迹进行优化,得到的轨迹是固定的,保密传输缺乏应对通信环境变化的能力.针对该问题,本文研究无人机飞行轨迹的在线优化策略,使机密信息被安全传输的同时实现通信平均保密率最... 相似文献
10.
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为... 相似文献
11.
针对四旋翼无人机吊挂负载系统准确位置控制问题和吊挂负载的摆动抑制问题,提出了一种基于强化学习的在线轨迹规划方案.为补偿飞行过程中未知外界扰动的影响,本文首先将无人机的期望轨迹设计分为位置定位轨迹规划设计和抗扰动轨迹规划设计.其中,位置定位轨迹规划部分可预先设计,以引导无人机飞抵目标位置.抗扰动轨迹规划部分采用基于强化学... 相似文献
12.
自主着舰是未来舰载无人机面临的重要难题与关键技术. 基于TD3算法结合舰载飞机六自由度运动以及航空母舰运动模型,构建了交互式深度强化学习仿真环境. 针对典型海况进行了舰载无人机自主着舰训练,仿真训练过程中综合考虑海况以及航空母舰纵荡、横荡和沉浮3个线扰动,滚转、俯仰和偏航3个角扰动等因素,建立对应简化运动模型; 基于某型飞机气动数据进行气动力建模,建立六自由度运动学/动力学模型; 基于TD3强化学习算法,结合前馈型深度神经网络技术,在高性能GPU工作站上建立舰载机着舰交互训练环境. 通过某型舰载无人机在无模型环境中“试错”训练,验证了AI技术在舰载无人机自主着舰控制中的可行性. 相似文献
13.
李天宇 《上海电力学院学报》2019,35(4):399-403
提出了一种基于强化学习的云计算虚拟机资源调度问题的解决方案和策略。构建了虚拟机的动态负载调度模型,将虚拟机资源调度问题描述为马尔可夫决策过程。根据虚拟机系统调度模型构建状态空间和虚拟机数量增减空间,并设计了动作的奖励函数。采用Q值强化学习机制,实现了虚拟机资源调度策略。在云平台的虚拟机模型中,对按需增减虚拟机数量和虚拟机动态迁移两种场景下的学习调度策略进行了仿真,验证了该方法的有效性。 相似文献
14.
基于强化学习的模糊自适应控制器 总被引:1,自引:0,他引:1
提出了一个强化学习系统中模糊自适应控制器网络结构及其有关算法的改进。并在此基础上给出了二阶欠阻尼系统和强非线性系统的强化学习控制仿真结果。仿真结果表明,基于强化学习的模糊自适应控制器可以对一类复杂系统实现自学习控制,达到令人满意的控制精度。最后,作者还对进一步研究的问题进行了探讨。 相似文献
15.
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 相似文献
16.
针对6G移动通信系统中信息新鲜度表征和优化问题,提出基于信息年龄的信息新鲜度表征方法,并形成无人机能耗约束下的最小化信息年龄优化问题.而离散的信息年龄优化目标和复杂能耗约束使得非凸优化问题难以求解,因此提出基于强化学习(RL)的无人机轨迹方法.该方法构建与信息年龄相关的奖励函数以快速实现智能化的无人机轨迹决策,从而降低... 相似文献
17.
在实际的加工检测过程中,对复杂曲面生成的测点依次进行检测,检测过程中可能会因为路径规划或者曲面曲率大小问题导致测头碰撞工件,为了防止在线检测过程中测头测针与工件产生干涉,需要对UG干涉模块进行二次开发.在简要阐述了UG二次开发基础以及UG自带的干涉模块分析基础上,基于UG平台,将Visual Studio与UG函数进行关联,利用UG中的UISTyler和MenuSeript开发工具,实现了在线检测中的干扰检测和避障. 相似文献
18.
基于多目标遗传算法的机器人避障研究 总被引:2,自引:0,他引:2
提出了在势场法斥力场函数中引入目标点和障碍物的距离、障碍物和机器人的速度矢量及最小安全距离的一种新的动态势场(NDAPF)方法,建立了考虑运动路径长度、移动步数、动态相对距离的避障评价函数,进一步提出了根据遗传算法个体适应度不同情况下变异概率自适应调整的一个改进算法,利用多目标遗传算法(MOGA)对NDAPF。方法进行寻优.在一个移动机器人仿真平台中分别对传统的静态势场(TAPF)方法、无参数优化NDAPF和利用MOGA参数优化的NDAPF方法(MOGANDAPF)进行仿真实验,实验结果证明,MOGANDAPF方法可进一步应用于足球机器人避碰模型研究中. 相似文献
19.
论文主要研究的是基于Q-learning算法生成一种动态寻找最优攻击路径的方法,并且能够提高攻击方法的高效性与适应性.以Q-learning算法为基础,参考网络连通性,通过分区的手段,利用删除网络拓扑中不可达的路径的化简方法,并通过机器学习的方式模拟黑客攻击,将状态与动作结合,在不断地学习中能够提高自身的适应与决策能力... 相似文献
20.
针对深度神经网络模型在终端设备上部署时面临计算和存储等资源不足的问题,模型剪枝是一种有效的模型压缩方案,在保证模型精度的前提下减少模型的参数量并降低计算复杂度。传统的剪枝方案对于剪枝率及剪枝标准的设置大多依据先验知识,忽略了深度模型中不同层的剪枝敏感度和参数分布差异,缺乏细粒度的优化。对此,提出了一种基于强化学习的滤波器剪枝方案,在满足目标稀疏度的基础上最小化模型剪枝后的精度损失,并采用参数化深度Q学习算法求解构建混合变量的非线性优化问题。实验结果表明,所提方案能够为深度模型每一层选择合适的剪枝标准与剪枝率,减小了模型剪枝后的精度损失。 相似文献