首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network, WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.  相似文献   

2.
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。  相似文献   

3.
针对状态机决策模型不能有效处理冰雪环境下丰富的上下文信息和不确定因素影响等问题,构建了一种基于深度Q网络算法(DQN)的深度强化学习智能体。使用运动规划器对该智能体进行增广,将基于规则的决策规划模块和深度强化学习模型整合在一起,建立了DQN-planner模型,从而提高了强化学习智能体的收敛速度和驾驶能力。最后,基于CARLA模拟仿真平台对DQN模型和DQN-planner模型在低附着系数冰雪路面上的驾驶能力进行了对比实验,分别就训练过程和验证结果进行了分析。  相似文献   

4.
为解决战场通信智能抗干扰决策问题,设计了一种基于深度强化学习的通信抗干扰决策方法.该方法在DQN算法架构下引入经验回放和基于爬山策略(PHC)的动态ε机制,提出动态ε-DQN智能决策算法,该算法能够根据决策网络状态更优地选择ε值,提高收敛速度和决策成功率.在决策过程中,对所有通信频率是否存在干扰信号进行检测,将结果作为...  相似文献   

5.
机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.  相似文献   

6.
针对汽车纵向自动驾驶决策过程的因果关联问题,建立了车辆跟驰行为的马尔可夫决策过程模型,利用真实驾驶员驾驶模拟器实验数据与驾驶风险原则确定了模型中的状态集和动作集,并根据车辆的行驶状态设计了相应的回报函数,进而基于增强Q学习算法对该模型进行求解,提出了以上决策过程的因果推理机制。最终,通过在随机工况下的仿真测试,验证了该方法的可行性与有效性。  相似文献   

7.
人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境。使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主学习场景模型,探索路径规划策略,直接输出动态引导标志信息,指引人群有效疏散。针对强化学习深度Q网络(DQN)算法在人群疏散问题中因为动作空间维度较高,导致神经网络复杂度指数增长的"维度灾难"现象,本文提出了将Q网络输出层按动作维度分组的组合动作空间DQN算法,显著降低了网络结构复杂度,提高了系统在多个引导标志复杂场景中的实用性。在不同场景的仿真实验表明本文方法在逃生时间指标上优于静态引导方法,达到人工构造模型方法的相同水平。说明本文方法可以有效引导人群,提高疏散效率,同时降低人工构造模型的工作量并减小人为误差。  相似文献   

8.
在面对复杂未知的环境时,智能体能进行大规模探索一直是深度强化学习的研究热点之一,但是传统的深度Q网络采用ε-greedy局部扰动策略来进行探索,这种策略方法不能保证一定学习到有效合理的ε,以达到探索的最优,其次仅根据状态值函数选择动作并不会引起策略的改变,不能达到深度探索的目的。为了解决该问题,在深度Q网络的全连接层中注入噪声参数,利用带探索性的噪声进行深度探索以弥补传统策略探索的低效性。噪声来自高斯噪声分布,通过方差驱动探索,使得智能体可以发现大量新状态,提供更加丰富的样本,为决策提供有效信息。最终提出一种基于动作空间噪声的深度Q网络模型(Deep Q-Network Based on Action Space Noise)。实验仿真结果表明,和传统的深度Q网络比较,该网络模型在Open AI Gym平台上的部分战略性游戏取得更好的奖赏值。  相似文献   

9.
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势.  相似文献   

10.
目的寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法.方法针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断TD(λ)的Q学习算法,并在计算机上实现了该算法.结果与结论在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断TD(λ)的Q学习能够加速算法收敛.  相似文献   

11.
干扰条件下常规雷达效能评估   总被引:8,自引:1,他引:7  
雷达对抗中干扰和抗干扰相互斗争的结果 ,促进了干扰技术和抗干扰技术的发展 .文中着眼于典型抗干扰措施 ,将干扰与抗干扰置于同一个平台上 ,系统研究了干扰条件下常规雷达的效能评估 ,即抗干扰效果 .该研究对于雷达系统的应用和发展有一定的理论价值 .  相似文献   

12.
Complicated electromagnetic environments of the space situational awareness facilities (i.e., satellite navigation systems, radar) would significantly impact normal operations. Effective monitoring and the corresponding diagnosis of the jamming signals are essential to normal operations and the innovations in anti-jamming equipment. This paper demonstrates a comprehensive survey on jamming monitoring algorithms and applications. The methods in dealing with jamming signals are summarized primarily. Subsequently, the jamming detection, identification, and direction finding techniques are addressed separately. Based on the established studies, we also provide some potential trends of the demonstrated jamming monitoring issues.  相似文献   

13.
在无线电干扰的实施过程中,干扰方式的选取对干扰效果的影响至关重要.基于无线电通信干扰的基本原理,研究分析无线电干扰对采用机载和分布式两种干扰对敌方通信性能的影响,寻找适合不同情况的干扰方式,以便为实际作战提供理论依据.  相似文献   

14.
针对雷达电磁环境模拟系统遮盖性干扰的模拟仿真,分别建立干信比和压制系数数学模型,然后利用功率准则分析评估遮盖性干扰效果.仿真分析表明:有效干扰区域由干扰方位、最小干扰距离和天线方向图形状3个要素决定;最小干扰距离受有效干扰功率、干扰机与雷达的距离和雷达发射功率影响较大.  相似文献   

15.
对相位码雷达的移频干扰   总被引:1,自引:0,他引:1  
相位码雷达信号具有辐射功率低,脉内有复杂的相位调制和处理增益高的特点,使电子对抗系统难以对它截获、分析和干扰。移频干扰是干扰相位编码雷达的一种方法。对移频干扰的计算机模拟表明,当干信比足够大时(幅度比约为3~5),移频干扰使巴克码的回波信号电平降低,在其两侧出现干扰峰。这些干扰峰随频移的增加呈有规律的移动。对于M序列码,移频干扰具有复盖干扰的效果。文中也研究了相位码子脉冲宽度、干扰与信号的相位差对干扰效果的影响。  相似文献   

16.
为了实现对末制导雷达有源干扰效果精确定量的评估,根据末制导雷达的工作过程及其有源干扰的特点,提出以干扰前后雷达的搜索时间比和跟踪误差比作为评估干扰效果的两个指标,并分析了干扰前后雷达的搜索时间比、跟踪误差比们与影响因素之间的关系.根据评估指标与有效干扰的对应关系,对其进行了归一化处理,利用加权求和的方法得到综合的干扰结...  相似文献   

17.
为开展干扰条件下雷达系统仿真及抗干扰性能评估提供较为真实的干扰信号,利用Matlab/Simulink软件,建立了3种典型有源压制性干扰模型.用户可通过模型中的参数设置界面方便灵活地设置干扰信号参数,从而产生符合要求的射频噪声、噪声调幅和噪声调频3种干扰信号.  相似文献   

18.
为提高雷达的抗干扰能力,首先论述了噪声调频干扰的数学模型与主要参数,采用了基于时域对消的算法抗噪声调频干扰,给出了算法的数学推导过程.该算法通过对数变换,分别由信号的实部与虚部估计出干扰信号的瞬时幅度与瞬时频率,以此对干扰信号进行重构,最后再利用时域对消的方法抑制掉了干扰信号分量.最后进行了仿真验证,证明了该算法的有效性.  相似文献   

19.
目的研究调频引信的干扰机理,获取调频引信干扰信号设计的理论依据. 方法对正弦调频引信进行时域和频域分析,找出调频引信的信道泄漏机制,并利用数学分析设计干扰信号波形. 结果证明了由于引信接收机混频器的非线性特性,调频引信中存在信道泄漏,具体设计了正弦调频引信的干扰信号. 结论利用信道泄漏设计的干扰信号,不是使用传统的模拟回波的干扰方法,它仅依靠干扰信号自身的特点即可对正弦调频引信进行有效干扰. 作者在此只具体研究了正弦调频引信,但这种干扰原理适用于各种调频体制的引信.  相似文献   

20.
基于相关系数的ISAR干扰效果评估方法   总被引:7,自引:0,他引:7  
从二维相关系数的角度出发,提出了一种对ISAR压制干扰效果的评估方法。该方法能清楚地反映受干扰目标从临界干扰到严重干扰整个干扰过程中目标ISAR图像失真程度;并将干扰效果评估量化在0~1之间,具有归一化的优点。就射频噪声干扰模式和调相噪声干扰模式对ISAR进行了干扰仿真,仿真结果证明了该评估方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号