首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。  相似文献   

2.
为了减少无人机在复杂实时信道状态下与地面蜂窝网络的连接中断,并且降低无人机在飞行任务过程中的能量消耗,针对蜂窝连接无人机系统,提出了一种基于无线电地图重构的无人机在线路径规划方法。无人机首先从目标区域中稀疏采样并计算采样点中断概率,随后利用基于深度图像先验的算法对无线电地图进行重构。基于重构的无线电地图,以最小化无人机任务执行的能耗为目标,建立了无人机路径规划优化问题,并提出了一种基于深度强化学习的路径规划算法进行求解。仿真结果表明,所提出方法能够在确保无人机与蜂窝连接性的前提下减少无人机的飞行能耗。  相似文献   

3.
针对箱式仓储环境下的多自主移动机器人(AMR)调度问题,传统动态路径规划算法(TDP)有解算可行路径效率低、系统实时性较差的缺点。针对这一问题,文中以时间最优为目标建立强化学习算法(RL)模型,用于提高多AMR同时调度的路径规划求解速度。此外,结合深度学习(DL)算法的优点,采用深度强化学习算法(DRL)有效缩短高维度、复杂工况下RL算法模型训练的收敛时间。仿真对比了TDP、RL和DRL三种算法模型,验证了DRL方法的有效性。  相似文献   

4.
随着无人机技术的进一步发展,多无人机编队飞行的研究也受到了越来越多的关注。无人机相互配合组成编队群,可以充分发挥单个无人机所不具备的优势,更能胜任复杂、多任务场景下的工作。对无人机集群编队控制方法进行分类,分为传统控制法、群体智能算法、深度强化学习算法;对各类方法进行分析,着重归纳讨论了领导者-跟随者方法、人工势场法、运动学控制方法、蚁群优化算法、粒子群优化算法、人工蜂群算法、深度Q网络算法、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法,并给出各自的优劣势;对无人机集群编队控制方法进行总结,指出传统控制法已接近成熟,但为了实现无人机的智能自主协同编队控制,仍需在群体智能算法和深度强化学习算法上融合新的思想与改进,从而发挥大数量无人机在复杂场景下的优势。  相似文献   

5.
机器人的路径规划一直是机器人研究领域的难点问题。针对煤矿井下环境的不确定性,环境的复杂使机器人很难得到好的规划结果。采用强化学习算法中的Q-learning算法实现井下移动机器人的局部路径规划,并对Q函数中的即时回报进行加权修正,使算法更有效地利用环境特征信息,进一步提高了避障能力。最后通过VC 进行仿真和模拟。仿真实验说明该方法的有效性和可行性。  相似文献   

6.
基于强化学习算法规划路径常用栅格法来描述环境,但存在路径过于贴近障碍物、非最短路径等与实际应用场景不符的情况。针对此问题,提出了一种结合人工势场知识的Q-learning无人驾驶汽车路径规划算法,引入障碍物的斥力场值来优化选择状态时的奖励值,同时增加无人驾驶汽车的斜向运动。仿真实验表明,与现有的算法相比,在消耗时间有所增加的情况下,结合人工势场的Q-learning无人驾驶汽车路径规划算法能够找到一条更符合实际情境的更优路径。  相似文献   

7.
周世阳  程郁凡  徐丰  雷霞 《信号处理》2022,38(7):1424-1433
由于无人机组网灵活、快速、低成本的特性,空中基站被视为在未来无线通信中有前景的技术。无人机集群可以通过相互协调和合作,完成的复杂任务,具有重大的研究和实用价值,而无人机间的高效通信是当下面临的重大挑战。为了在满足无人机间通信速率的前提下,尽可能节省发射功率,本文提出基于深度强化学习的集群方案和功率控制的智能决策算法。首先,本文设计了三种无人机集群方案,以对地面用户提供无缝的无线覆盖;然后,本文提出了基于深度Q网络(Deep Q-network)算法的集群方案和功率控制决策算法,用深度神经网络输出不同条件下联合决策的无人机集群方案和发射功率,并研究了重要性采样技术,提高训练效率。仿真结果表明,本文提出的深度强化学习算法能够正确决策无人机集群方案和发射功率,与不带强化学习的深度学习(Deep Learning Without Reinforcement Learning, DL-WO-RL)算法相比,用更低的发射功率满足无人机之间的通信速率要求,并且重要性采样技术能够缩短DQN算法的收敛时间。   相似文献   

8.
多智能体强化学习飞行路径规划算法   总被引:2,自引:1,他引:1  
为了减轻现代空战中大量信息处理给飞行员带来的负担,同时为了实现无人机航路自主规划,提出了一种基于多智能体强化学习理论的飞行路径规划算法.该算法采用多智能体强化学习的方法,采用两个功能不同的智能体,分别对应局部和全局路径规划.该算法对状态和动作空间进行划分和抽象,有效地减少了状态的数量,解决了强化学习维数灾难的问题.最后用Matlab对此算法进行了数字仿真,验证了算法的可行性,仿真实验结果显示该算法收敛速度快,能够解决飞行路径规划的任务.  相似文献   

9.
针对配置大规模MIMO的多无人机空地网络中的动态资源分配问题,从最大化系统吞吐量的角度出发,该文提出一种基于K-臂赌博机的强化学习算法联合优化多个无人机的用户选择与功率分配策略。首先根据地理位置对用户进行分簇,利用簇中心节点规划无人机飞行路径;其次在不考虑无人机之间端到端通信的情况下,将多无人机资源分配问题转化为相互独立的多个智能体强化学习问题;最后提出分幕式多智能体多状态K-臂赌博机算法来实现用户选择与功率分配的联合优化。通过将无人机每个时刻的位置索引定义为状态空间,从而使得无人机可动态适配自身位置及信道的动态变化。仿真结果表明,所提方案可根据环境状态变化自主智能调整资源分配策略,相比于已有方案能有效提升系统总吞吐量。  相似文献   

10.
在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务。搜救任务中涉及到多个目标间的搜索,相比于单目标的搜索问题,需要更复杂的算法或是奖励重塑形式,才能改进其稀疏奖励的问题。此外,搜救任务比起一般的强化学习问题,更讲究时效性。如何利用搜救的先验知识对算法进行改进,从而提高完成任务的效率和训练时间,是机器学习应用的研究重点。针对搜救任务背景,研究了无人机在多目标问题下的路径规划问题。基于分层学习的概念对已有的深度强化学习算法进行了改进,提出了适用于多目标任务的深度强化学习算法——MTDDPG。该算法结合环境分区和奖励重塑,利用环境分区对搜救场景进行简化,从而缩短训练时间,再通过奖励重塑的方式提升任务完成的效率,提升了MTDDPG算法在多目标搜救任务上的训练速度和效率。利用程序仿真设计三个实验对算法进行验证,并基于不同的先验信息对环境进行建模实验,对比不同算法在多目标任务中的实验结果。此外,根据先验信息的完整与否,对比MTDDPG在不同先验信息完整度的场景下训练的结果,结果表明MTDDPG在多目标搜救任务上,可以有效地解决搜索问题,完成指定的搜救任务。  相似文献   

11.
范文  韦茜  周知  于帅  陈旭 《电子与信息学报》2022,44(9):2994-3003
联邦学习是6G关键技术之一,其可以在保护数据隐私的前提下,利用跨设备的数据训练一个可用且安全的共享模型。然而,大部分终端设备由于处理能力有限,无法支持复杂的机器学习模型训练过程。在异构网络融合环境下移动边缘计算(MEC)框架中,多个无人机(UAVs)作为空中边缘服务器以协作的方式灵活地在目标区域内移动,并且及时收集新鲜数据进行联邦学习本地训练以确保数据学习的实时性。该文综合考虑数据新鲜程度、通信代价和模型质量等多个因素,对无人机飞行轨迹、与终端设备的通信决策以及无人机之间的协同工作方式进行综合优化。进一步,该文使用基于优先级的可分解多智能体深度强化学习算法解决多无人机联邦学习的连续在线决策问题,以实现高效的协作和控制。通过采用多个真实数据集进行仿真实验,仿真结果验证了所提出的算法在不同的数据分布以及快速变化的动态环境下都能取得优越的性能。  相似文献   

12.
随着社会经济的发展与城市机动车保有量的增长,传统信号优化系统在交通控制领域的应用已无法满足日益增长的交通拥堵矛盾。在人工智能飞速发展的今天,交通管理者希望通过技术革新,推进人工智能与交通信号优化的融合。本系统提出一种基于平行仿真结合强化学习的信号优化算法,突出体现深度强化学习在干线、区域信号协调优化过程中的优势。  相似文献   

13.
机器学习作为人工智能领域最具应用前景的一类技术,能够在不需要显式编程的情况下依赖于不同的算法处理数据,更有效地解决复杂问题,被广泛应用于无线通信领域。通过综述典型的监督、无监督、强化学习以及深度学习等机器学习算法在信道管理、频谱管理、功率分配和信号检测等方面的研究工作,挖掘机器学习在无线通信领域的潜在价值。针对目前算法的局限性,展望机器学习在无线通信领域未来的发展方向,为机器学习在无线通信领域的后续研究提供参考。  相似文献   

14.
随着新型业务涌现和IP网络技术的不断演进,云网融合步入新阶段,展现出数字化、智能化和服务化的发展特征。其中智能化需要结合相关的人工智能技术,而深度学习和深度强化学习是常用的人工智能算法。图神经网络等技术的发展,也使得深度学习和深度强化学习分别在图信息表示和最优化问题处理方面的能力得到本质提升。IP网络可以用图结构抽象化表示,相关的预测和优化问题可以用深度学习和深度强化学习算法处理和求解。因此阐述了深度学习和深度强化学习在流量预测、网络规划和流量工程3个场景下的相关算法与应用,分析了在实践过程中可能面临的问题与挑战。  相似文献   

15.
随着无人艇自主控制技术的发展,其在军事领域的作用日益突出,反水雷无人艇的自主控制技术是目前研究的热点之一.针对反水雷无人艇的局部路径规划问题进行研究,提出一种分层强化学习方法,对作为无人艇路径规划器的进化神经网络进行训练.同时使用Unity物理引擎搭建仿真环境,构建了具有环境感知和自主决策能力的无人艇模型.试验验证表明了算法在处理局部路径规划问题上的有效性.  相似文献   

16.
针对多无人机在复杂环境下的航迹规划问题,文中提出基于队形变化的多无人机航迹规划算法。利用领航-跟随的无人机拓扑结构,设计了一种以时间与航程作为衡量指标的代价函数,求解出最优的编队集结点。采用改进的Informed-RRT*算法求解出领航者的渐近最优航迹,结合队形变化策略实现了跟随者的航迹规划与避障。在定义队形变化量、路径长度比、航向稳定性性能指标的基础上,文中进行了仿真实验并对生成航迹进行评价与对比。仿真结果表明,无人机编队实现了在复杂环境下航迹规划与避障,同时为跟随者规划出最优航迹,与领航者最优航迹长度相差不到1%,验证了该算法的实用性与有效性。  相似文献   

17.
在无人机空中格斗过程中,由于无人机自身状态以及空战态势,敌我双方机动动作及行为策略的选择具有极强的不确定性。针对这个问题,将强化学习方法引入无人机空中格斗过程,建立无人机机动模型及动作集;将空战态势评估函数作为强化学习中的信号函数;采用概率神经网络(PNN)作为对敌机动预测单元;在敌我双方战场信息完全感知条件下,该算法能够不断学习,使无人机通过与环境的交互来掌握其最佳机动行为策略,实现无人机的一对一空中对抗。  相似文献   

18.
文章对基于强化学习的通信受限环境中的多无人机协同架构、通信需求和协同策略进行了分析,旨在提高多无人机协同的合理性,解决多无人机在通信受限环境中出现的问题,发挥强化学习的作用。  相似文献   

19.
针对偏远地区无人机配送时效差以及配送环境复杂的问题,构建了复杂环境下无人机配送路径优化模型。模型以配送时间最短为目标,不仅考虑了无人机的续航能力、载重能力、载重变化对路径选择的影响,而且还将影响配送时间的环境因素(如风速、风向)考虑在内。为了验证模型的有效性,以湖北某乡村为例设计案例,通过蚁群算法对模型进行求解,并对风速、风向的交互作用进行了情景分析。实验结果表明,在无人机的飞行极限范围内,风速越大对无人机飞行的影响越大,配送时间整体呈现增加的趋势;当风速增加到一定程度时,风向角度变化会对无人机飞行时间产生较大影响。该研究可为复杂环境下无人机物流配送提供理论依据,进而为无人机路径规划研究提供有力支持和参考依据。  相似文献   

20.
空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号