首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
强化学习的模型、算法及应用   总被引:2,自引:1,他引:2  
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一.文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa 算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向.  相似文献   

2.
随着科技的进步,通信方式越来越发达.卫星能够将卫星作为中转站,在其电波覆盖范围以内,可以直接完成通信传输,而且通信过程中并不会受到各类地质灾害的影响.文章通过对卫星通信进行分析,并结合实际对基于强化学习的卫星通信智能抗干扰决策提出个人观点,希望为关注卫星通信智能抗干扰的人群带来参考.  相似文献   

3.
针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针对跳频干扰决策难题,按照频点分布划分干扰频段,再基于分层强化学习模型分级决策干扰频段和干扰带宽,最后利用基于自举专家轨迹的经验回放机制采样并训练优化算法,使算法能够在现有干扰资源特别是干扰资源不足的条件下,优先干扰最具威胁目标,获得最优干扰效果同时减少总的干扰带宽.仿真结果表明,算法较现有资源分配决策算法节约25%干扰站资源,减少15%干扰带宽,具有较大实用价值.  相似文献   

4.
针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针对跳频干扰决策难题,按照频点分布划分干扰频段,再基于分层强化学习模型分级决策干扰频段和干扰带宽,最后利用基于自举专家轨迹的经验回放机制采样并训练优化算法,使算法能够在现有干扰资源特别是干扰资源不足的条件下,优先干扰最具威胁目标,获得最优干扰效果同时减少总的干扰带宽。仿真结果表明,算法较现有资源分配决策算法节约25%干扰站资源,减少15%干扰带宽,具有较大实用价值。  相似文献   

5.
为改变过去由数字逻辑电路和继电器组成的雷达发射机的控制保护电路,本文重点介绍单片机在雷达发射机控制保护电路中的应用。在硬件电路设计时,从理论和实践上提出了一些抗干扰的方法,保证系统稳定可靠运行。  相似文献   

6.
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。  相似文献   

7.
随着人工智能技术的发展,智能终端已经可以通过频谱感知、通信效果检测分析等方式智能地改变通信手段,进而实现高效率抗干扰,这给传统干扰带来了巨大挑战。而深度强化学习在复杂场景中的探索效率高,面对高难度任务的能力强大,在军事干扰领域应用前景广阔。基于此,介绍深度强化学习、智能干扰方法这两个基本问题的研究现状和存在的难点问题,总结并提出未来基于深度强化学习的智能干扰方法的研究前景和技术展望。  相似文献   

8.
针对现代财务数据分析智能化的需求,文中对分布式强化学习理论进行了研究,构建了智能化的财务数据预警模型.该模型基于中央强化学习体系结构,使用多个执行模块增强单智能体强化学习算法的运算与泛化能力;在强化学习算法的选择上,引入了瞬时差分算法.该算法可以在学习中同步之前迭代状态的经验,且不依赖于最终的预测值,大幅度节约了存储开...  相似文献   

9.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。  相似文献   

10.
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。  相似文献   

11.
干扰场景与反干扰手段的多样性,造成了雷达反干扰策略的千变万化,客观上要求雷达反干扰实现智能化。文中提出雷达智能化反干扰系统体系,归纳了构成该系统的要素:基于宽带与窄带干扰侦察相结合的干扰认知技术、基于博弈论的反干扰策略调度技术、系统级的干扰对抗技术。文章所提的认知型智能雷达反干扰体系可以解决雷达向认知方向发展的需求。  相似文献   

12.
首先介绍了雷达系统设计过程中各分系统的重要参数,分析了各设计参数之间的制约关系,并以此作为未来雷达优化的约束条件;然后,对比了当前典型多目标优化算法的优缺点,分析其不同的适用领域;再从雷达波形、天线以及发射机、系统工程等多个角度对当前已经应用于雷达设计中的智能优化技术进行了分类介绍;最后,对未来雷达的智能化发展趋势进行了展望。以期为未来雷达的智能化应用及智能化雷达的优化设计提供参考。  相似文献   

13.
智能化认知雷达是能够解决复杂背景下的目标探测问题的新概念雷达系统,它可以通过知识辅助智能自适应处理大幅度提升雷达性能.文中在分析了常规雷达面临的问题和性能瓶颈的基础上,介绍了智能化认知雷达的概念和基本架构,讨论了智能化认知雷达中的关键技术,以及这些关键技术对提升雷达性能所起到的作用,最后,提出了一种综合法认知处理算法.通过仿真分析和实测数据对比,经过综合法认知处理后,能使杂波剩余大幅减少,信干噪比显著提升.  相似文献   

14.
粒子群算法是一种群智能的优化算法,其理论来源于人工生命和演化计算理论.该论文建立了雷达干扰资源分配的数学模型,基于粒子群算法,采用了交叉策略.为了避免陷入局部最优,该论文还采用了进化策略,从而改进了粒子群分配技术.最后,仿真实现了干扰资源的优化分配并详细分析了仿真结果.  相似文献   

15.
孙鹏浩  兰巨龙  申涓  胡宇翔 《电子学报》2000,48(11):2170-2177
随着网络规模的不断增大以及网络复杂度的不断提高,传统路由算法面对网络流量在时空分布上的剧烈波动难以兼顾计算复杂度和算法效率.近年来,随着软件定义网络和人工智能技术的兴起,基于机器学习的自动路由策略生成逐渐受到关注.本文提出一种基于深度增强学习的智能路由技术SmartPath,通过动态收集网络状态,使用深度增强学习自动生成路由策略,从而保证路由策略能够动态适应网络流量变化.实验结果表明,本文所提出的方案能够不依赖人工流量建模动态更新网络路由,在测试环境下比当前最优方案减少至少10%的平均端到端传输时延.  相似文献   

16.
面对人工智能技术的高速发展及军事变革需求,智能雷达被提出以应对未来复杂的战场环境。文中介绍了智能雷达的研究背景,通过对人工智能、感知智能与认知智能的理解阐述了智能雷达的发展定位、技术内涵及特点;然后,在分析传统雷达工作过程特点基础上提出了智能雷达的智能化表征层次架构,分析了智能雷达的主要研究内容;最后,给出了针对智能雷达的发展思考和建议。  相似文献   

17.
RLGA:一种基于强化学习机制的遗传算法   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了强化学习与遗传算法工作机制,在提出基因空间分割概念的基础上,提出了一种将强化学习与遗传算法内在结合起来的算法RLGA,在遗传算法的框架下实现强化学习机制.从理论上分析了RLGA的收敛性,讨论了RLGA的时间和空间效率及其与基因空间分割的关系,通过实验分析了RLGA中基因空间分割的指导范围.实验结果表明,RLGA具有良好的全局收敛性能.  相似文献   

18.
冯陈伟  袁江南 《电信科学》2015,31(8):99-106
为了充分利用各种无线网络的资源,需要实现异构网络的融合,而异构网络的融合又面临接入控制与资源分配的问题。为此,提出一种基于强化学习的异构无线网络资源管理算法,该算法引入 D2D (device-to-device)通信模式,并可以根据终端不同的业务类型、终端移动性及网络负载条件等状态,选择合适的网络接入方式。同时,为降低存储需求,采用神经网络技术解决连续状态空间问题。仿真结果表明,该算法具有高效的在线学习能力,能够有效地提升网络的频谱效用,降低阻塞率,从而实现自主的无线资源管理。  相似文献   

19.
多智能体强化学习在足球机器人中的研究与应用   总被引:5,自引:1,他引:4       下载免费PDF全文
 本文提出一种基于投票的多智能体强化学习方法,使球队在比赛中学会协作,自动适应环境,提高实时性和进球数.首先通过定义称为策略的联合行为,将协作问题转化为对策略的学习,简化问题的处理;然后对球场进行划分,以区域表示位置,有效减少了状态空间维数,加快了学习速度;接下来通过区分环境状态并只考虑协作状态,减小状态空间,进一步提高了学习速度;并使用投票的方式综合各个队员的决策,达到协作的目的.最后通过实验结果表明了该方法的正确性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号