期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李东华江驹姜长生《电光与控制》2009,16(10):10-14

为了减轻现代空战中大量信息处理给飞行员带来的负担,同时为了实现无人机航路自主规划,提出了一种基于多智能体强化学习理论的飞行路径规划算法.该算法采用多智能体强化学习的方法,采用两个功能不同的智能体,分别对应局部和全局路径规划.该算法对状态和动作空间进行划分和抽象,有效地减少了状态的数量,解决了强化学习维数灾难的问题.最后用Matlab对此算法进行了数字仿真,验证了算法的可行性,仿真实验结果显示该算法收敛速度快,能够解决飞行路径规划的任务. 相似文献

2.

基于深度强化学习的智能决策方法

熊蓉玲段春怡冉华明杨萌冯旸赫《电讯技术》2023,(1):1-6

针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。相似文献

3.

基于云推理模型的深度强化学习探索策略研究

李晨溪曹雷陈希亮张永亮徐志雄彭辉段理文《电子与信息学报》2018,40(1):244-248

强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但交互试错的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的CartPole-v2中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。相似文献

4.

一种最大集合期望损失的多目标Sarsa(λ)算法

刘全李瑾傅启明崔志明伏玉琛《电子学报》2013,41(8):1469-1473

针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 相似文献

5.

基于自适应蜣螂算法的无人机三维路径规划方法

远翔宇杨风暴杨童瑶《无线电工程》2024,(4):928-936

山区地势具有陡峭、沟深壑大的环境特点,导致基于启发式算法的山区无人机路径规划速度慢、质量差,针对该问题提出了基于自适应动作策略蜣螂算法的路径规划方法。以路径长度、飞行安全性以及路径平滑度构建路径规划目标函数;在蜣螂算法中引入种群相似性动作变异策略和反向学习策略,平衡局部优化和全局优化能力;通过对比麻雀算法、蜣螂算法和灰狼算法在12个基准函数上的算法性能,结果表明所提方法具有更快的收敛速度、不易陷入局部最优。山区路径规划仿真实验表明,所提方法比蜣螂算法的路径规划质量提高了37.66%。相似文献

6.

基于SARSA学习的跳频系统智能抗干扰决策算法

陈一波赵知劲《现代电子技术》2023,(1):31-35

为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。相似文献

7.

结合人工势场的Q-learning无人驾驶汽车路径规划算法

刘晓晨郑孝遥沈晨《电子质量》2022,(12):1-5

基于强化学习算法规划路径常用栅格法来描述环境,但存在路径过于贴近障碍物、非最短路径等与实际应用场景不符的情况。针对此问题,提出了一种结合人工势场知识的Q-learning无人驾驶汽车路径规划算法,引入障碍物的斥力场值来优化选择状态时的奖励值,同时增加无人驾驶汽车的斜向运动。仿真实验表明,与现有的算法相比,在消耗时间有所增加的情况下,结合人工势场的Q-learning无人驾驶汽车路径规划算法能够找到一条更符合实际情境的更优路径。相似文献

8.

海空兵棋中基于行为树的智能决策方法

田佩臧兆祥郭鸿村张震《长江信息通信》2022,(4):122-126

在兵棋推演过程中,面对策略的不确定性和决策情况的复杂性,人类专家制定的策略往往需要经过计算推演的验证,计算结果也可能会和预想结果大相径庭,而智能决策辅助推演可以极大地提升推演过程中策略制定的准确性。针对传统有限状态机决策机制的不灵活,模糊状态机又缺乏适应性的问题,提出了一种基于行为树的智能决策方法来实现兵棋的实时决策过程,并基于Behavior3 Editor平台实现行为树的策略生成过程,最后将基于行为树的智能决策方法用于海空兵棋推演,实现了作战策略的生成,验证了该方法的可行性和有效性。相似文献

9.

基于改进DQN强化学习算法的弹性光网络资源分配研究

尚晓凯韩龙龙翟慧鹏《光通信技术》2023,(5):12-15

针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络（DQN）强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明：改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Er l ang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。相似文献

10.

基于深度强化学习的多AMR路径规划算法研究

段云森朱珂瑶任耀华《中国电子科学研究院学报》2022,(11):1070-1077

针对箱式仓储环境下的多自主移动机器人(AMR)调度问题,传统动态路径规划算法(TDP)有解算可行路径效率低、系统实时性较差的缺点。针对这一问题,文中以时间最优为目标建立强化学习算法(RL)模型,用于提高多AMR同时调度的路径规划求解速度。此外,结合深度学习(DL)算法的优点,采用深度强化学习算法(DRL)有效缩短高维度、复杂工况下RL算法模型训练的收敛时间。仿真对比了TDP、RL和DRL三种算法模型,验证了DRL方法的有效性。相似文献

11.

基于强化学习的拥塞窗口调整策略研究

周萍《现代信息科技》2022,(8):86-88

针对网络拥塞控制问题,结合机器学习算法,提出了基于强化学习的拥塞窗口调整（CWARL）策略。首先定义了部分网络知识来表示所感知到的网络拥塞程度,设计了动作集合以确定调整拥塞窗口的幅度,设计了兼顾吞吐量和丢包率的奖励函数。其次提出了基于Q学习的窗口调整策略,通过学习网络特征合理地调整拥塞窗口。最后使用实验评估CWARL策略,实验结果表明,提出的CWARL策略的综合性能优于所对比的拥塞控制策略。相似文献

12.

面向规则的计算机兵棋裁决流程编辑器

吴海东桑作军《湖北邮电技术》2014,(1):127-128

为了实现计算机兵棋推演过程中的自动裁决,设计实现可方便进行裁决流程编辑的工具软件成为计算机兵棋平台（系统）开发的一项重要工作。文章在阐述了手工兵棋推演和计算机兵棋推演中裁决规则和裁决流程的作用及实施过程的基础上,详细分析了满足兵棋推演自动裁决要求的裁决流程编辑器的设计和实现方法,并在某款计算机兵棋推演平台的工具软件中得到了很好地应用。相似文献

13.

基于改进深度强化学习的虚拟网络功能部署优化算法

唐伦贺兰钦连沁怡谭颀《电子与信息学报》2022,43(6):1724-1732

针对网络功能虚拟化/软件定义网络(NFV/SDN)架构下,网络服务请求动态到达引起的服务功能链(SFC)部署优化问题,该文提出一种基于改进深度强化学习的虚拟网络功能(VNF)部署优化算法.首先,建立了马尔科夫决策过程(MDP)的随机优化模型,完成SFC的在线部署以及资源的动态分配,该模型联合优化SFC部署成本和时延成本,同时受限于SFC的时延以及物理资源约束.其次,在VNF部署和资源分配的过程中,存在状态和动作空间过大,以及状态转移概率未知等问题,该文提出了一种基于深度强化学习的VNF智能部署算法,从而得到近似最优的VNF部署策略和资源分配策略.最后,针对深度强化学习代理通过ε贪婪策略进行动作探索和利用,造成算法收敛速度慢等问题,提出了一种基于值函数差异的动作探索和利用方法,并进一步采用双重经验回放池,解决经验样本利用率低的问题.仿真结果表示,该算法能够加快神经网络收敛速度,并且可以同时优化SFC部署成本和SFC端到端时延. 相似文献

14.

基于高斯过程分类器的连续空间强化学习 总被引：2，自引：1，他引：1

下载免费PDF全文

王雪松张依阳程玉虎《电子学报》2009,37(6):1153-1158

如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题. 相似文献

15.

改进Q-Learning的WRSN充电路径规划算法

下载免费PDF全文

刘洋王军吴云鹏《太赫兹科学与电子信息学报》2022,20(4):393-401

针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后对路径规划问题进行数学建模和目标约束条件设置,将移动充电车抽象为一个智能体(Agent),确定其状态集和动作集,合理改进ε-greedy策略进行动作选择,并选择相关性能参数设计奖赏函数,最后通过迭代学习不断探索状态空间环境,自适应得到最优充电路径。仿真结果证明：该充电路径规划算法能够快速收敛,且与同类型经典算法相比,改进的Q-Learning充电算法在网络寿命、节点平均充电次数和能量利用率等方面具有一定优势。相似文献

16.

一种不稳定环境下的策略搜索及迁移方法

下载免费PDF全文

朱斐刘全傅启明陈冬火王辉伏玉琛《电子学报》2017,45(2):257-266

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法--FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 相似文献

17.

基于仿生学内在动机的Q学习算法移动机器人路径规划研究

《现代电子技术》2019,(17):133-137

针对移动机器人在未知环境中避障和路径规划自适应能力差的问题,受心理学方面内在动机启发,以加入引力势场的Q学习理论为基础,提出一种基于内在动机机制的引力场Q(IM-GPF-Q)学习算法。该算法以Q学习为理论框架,加入引力势场为算法提供先验知识,以内在动机作为内部奖励,与外部信号一起生成取向评价值,指引机器人学会自主选择最优路径。通过模拟客厅环境和两种具有陷阱的环境中进行的仿真实验,结果表明该算法能使机器人通过与外界未知环境进行交互获得认知,最终完成路径规划任务,与传统强化学习方法相比具有更快的收敛速度以及更好的自学习和自适应能力。相似文献

18.

基于数字孪生的城市交通流智能预测与导引策略

下载免费PDF全文

廖熙雯冷甦鹏明昱君李天扬《电信科学》2023,39(3):70-79

物联网和人工智能等信息技术的快速发展极大地推动了交通系统的变革,同样也带来了机遇与挑战。针对现有导航系统忽略交通流时空特征而产生的策略重复性拥堵问题,对宏观交通流和微观车辆驾驶分别建模,并挖掘其耦合关系,进而提出一种基于数字孪生的城市智能交通流分层预测与导引策略,为减缓交通拥堵提供新思路。在该策略中,虚拟空间中的上层道路孪生通过扩散卷积递归神经网络预测时空交通流量,并显式作用于车辆路径规划决策。在此基础上,提出一种时空协同深度强化学习方法,用于实现车辆面向未来的协作式路径规划,指导虚拟空间中的下层车辆孪生选出最优策略反馈于真实世界。基于SUMO仿真平台进行了仿真验证。实验结果表明,本文所提方法在提高出行达成率、缓解拥堵等方面显著优于现有算法,能够有效提升城市交通出行效率。相似文献

19.

基于多代理强化学习的边缘网络资源协作缓存方法

关天柱《长江信息通信》2022,(6):78-80

多代理强化学习能够将目标内容看做一个整体,可以同时进行多个类型目标的协同管理,研究基于多代理强化学习的边缘网络资源协作缓存方法。构建动态传输的边缘网络缓存模型,基于多代理强化学习定义选择动作,贪婪算法设定网络资源缓存放置路径,最佳响应协作缓存边缘网络资源,完成基于多代理强化学习的边缘网络资源协作缓存方法设计。实验结果:选择两组不同运行时段的边缘网络资源请求数据,本文方法能够实现不同数据大小之间的协同缓存,且在资源数据大小为8G时,所用的缓存时间能够控制在10s之内,较比传统方法缩短了120s,能够有效解决网络拥挤的现象,具有实际应用效果。相似文献

20.

基于深度强化学习的干扰资源分配方法

李健涛王轲昕刘凯张天贤《现代雷达》2023,(10):44-51

针对干扰机群掩护目标突防组网雷达场景下的干扰资源分配的问题,提出了一种基于深度强化学习的干扰资源分配方法。该文将干扰资源分配模型描述为一个马尔可夫决策过程,并提出了一种基于动作密钥编码的双延迟深度确定性策略梯度(AKE-TD3)网络训练算法,将混合整数优化问题转化为连续变量优化问题,解决了算法难以收敛的问题。仿真结果表明,文中所设计的干扰资源分配方法对组网雷达有更好的干扰效果,且稳定性更高,有效地提升了干扰机群的作战性能。相似文献