首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于经验知识的Q-学习算法   总被引:1,自引:0,他引:1  
为了提高智能体系统中的典型的强化学习Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法.该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度.仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习.  相似文献   

2.
针对工业无线传感网络(Industrial Wireless Sensor Networks, IWSN),提出基于Q-学习的图路由(Q-Learning-based Graph Routing, QLGR),利用图表述网络拓扑,QLGR算法通过网络内节点的信息构建上行链路图,先依据节点距网关的跳数,能量供应类型以及离邻居节点接收信号强度构建节点的成本函数,再依据成本函数选择节点加入上行链路图。同时,利用Q-学习算法调整成本函数的权重系数,进而减少数据传输时延,延长网络寿命。仿真结果表明?提出的QLGR算法减缓了节点能量消耗速度,提高了传输数据的可靠性。  相似文献   

3.
针对水声通信中数据传输延时高且动态适应性弱的问题, 提出了一种基于Q学习优化的蚁群智能水声网络路由协议(Q-learning ant colony optimization, QACO). 协议包括路由行为和智能决策部分, 在路发现和维护阶段, 依靠网络智能蚂蚁进行网络拓扑环境的构建和节点之间的信息交换以及网络的维护. 在Q学习阶段, 通过定量化节点能量和深度以及网络传输延时学习特征作为折扣因子和学习率, 以延长网络的生命周期, 降低系统能耗和延时. 最后通过水声网络环境进行仿真, 实验结果表明QACO在能耗、延迟和网络生命周期方面都优于基于Q学习辅助的蚁群算法(Q-learning aided ant colony routing protocol, QLACO)和基于 Q-learning 的节能和生命周期感知路由协议(Q-learning-based energy-efficient and lifetime-aware routing protocol, QELAR)和基于深度路由协议 (depth-based routing, DBR)算法.  相似文献   

4.
针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测模型(QLADM)。该模型把Q-学习、行为意图跟踪和入侵预测结合起来,可获得未知入侵行为的检测和响应。通过感知环境状况、选择适当行为并从环境中获得不确定奖赏值,有效地判断动态系统的入侵行为和降低误报率。给出了该模型框架和各模块的功能描述,经实验验证该模型是有效的。  相似文献   

5.
针对SDN控制器中网络路由的优化问题,基于强化学习中的PPO模型设计了一种路由优化算法。该算法可以针对不同的优化目标调整奖励函数来动态更新路由策略,并且不依赖于任何特定的网络状态,具有较强的泛化性能。由于采用了强化学习中策略方法,该算法对路由策略的控制相比各类基于Q-learning的算法更为精细。基于Omnet++仿真软件通过实验评估了该算法的性能,相比传统最短路径路由算法,路由优化算法在Sprint结构网络上的平均延迟和端到端最大延迟分别降低了29.3%和17.4%,吞吐率提高了31.77%,实验结果说明了基于PPO的SDN路由控制算法不仅具有良好的收敛性,而且相比静态最短路径路由算法与基于Q-learning的QAR路由算法具有更好的性能和稳定性。  相似文献   

6.
李金娜  尹子轩 《控制与决策》2019,34(11):2343-2349
针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.  相似文献   

7.
农田无线传感器网络(WSN)应用环境复杂,影响网络传输的因素包括环境变化、作物生长等。路由协议作为网络数据采集过程中的重要环节,其能耗优化是近年来农田WSN领域的研究热点。传统的能耗优化路由算法多数只针对静态网络环境,难以适用于动态变化的农田监测场景。为此,提出一种基于改进粒子群(PSO)的路由优化算法RD-PSO。将不同的路由传输路径抽象为粒子,根据农田网络能耗、剩余能量、网络传输跳数、链路质量等关键因子构建适应度函数,以提高路径寻优的环境适应性。同时,针对PSO路由随机初始化时迭代效率低的问题,采用反向探测方法确定网络节点的初始化拓扑位置,缩短初始位置与最优解的距离,从而提高算法的收敛速度。实验结果表明,相较ELMR、EEABR和MR-PSO路由算法,RD-PSO算法具有更快的收敛速度,在网络生命周期、能耗均衡效果以及平均传输跳数等方面性能较优,其能提高路由算法在农田动态场景中的适配性。  相似文献   

8.
Ad Hoc网中基于熵的长寿分布式QoS路由算法   总被引:14,自引:0,他引:14  
在分析Ad Hoc网的单播QoS路由问题的基础上,提出了一种新的Ad Hoc网的分布式QoS路由算法--EBLLD(entropy-based long-life distributed QoS routing)算法.其核心思想是提出了衡量路径稳定性的新尺度--熵,并利用熵来选择长寿的路径,减少了重建路由(或路由修复)的次数,从而在Ad Hoc网的网络拓扑频繁变化的环境中尽可能地提供QoS保证.同时该算法还利用本地组播机制和启发函数排序过滤和熵尺度排序过滤减小了其路由消息开销.仿真结果表明,EBLLD算法能够以较小的路由消息开销获得较高的路由成功率.此外,EBLLD算法具有可扩展性,可以应用于较大规模的Ad Hoc网中.  相似文献   

9.
无人机自组织网络(FANET)被广泛应用于军事、应急救灾和环境监测等情况下的网络通信服务,良好的路由协议能为其在通信条件恶劣场景下的可靠传输提供保障。利用强化学习将路由选择描述为一个马尔可夫决策过程进行路由决策成为研究热点。为了更进一步地介绍和挖掘基于强化学习的FANET路由协议研究现状,首先介绍近几年来FANET传统路由协议上的一些改进;其次,基于强化学习的FANET路由协议研究的最新调研结果进行详细的介绍;同时,对路由研究算法中的状态、动作和奖励等建模规律进行深度挖掘,从路由的优化标准和强化学习优化过程等方面进行了比较;最后,根据目前基于强化学习FANET路由协议的研究现状进行总结和展望。  相似文献   

10.
基于多Agent的并行Q-学习算法   总被引:1,自引:0,他引:1  
提出了一种多Agent并行Q-学习算法.学习系统中存在多个Agent,它们的学习环境、学习任务及自身功能均相同,在每个学习周期内,各个Agent在各自独立的学习环境中进行学习,当一个学习周期结束后,对各个Agent的学习结果进行融合,融合后的结果被所有的Agent共享,并以此为基础进行下一个周期的学习.实验结果表明了该方法的可行性和有效性。  相似文献   

11.
张然  高莹雪  赵钰  丁元明 《计算机工程》2022,48(3):162-169+188
在微纳卫星网络中,传统蚁群路由算法不能同时保证数据传输的安全性和网络业务的服务质量,且易陷入局部最优解,收敛速度较慢。为解决上述问题,提出一种实现多目标优化的Q学习量子蚁群路由算法。该算法在选择下一跳节点的转移概率时,将路径的平均信任值和路径的费用作为两个优化目标,构成最优路径的节点性能指标,保证数据传输的安全性和网络业务服务质量。在考虑路径费用函数时,将量子计算引入到状态转移概率计算中,避免陷入局部最优解,并在算法中引入Q学习的思想,将信息素映射成Q学习的Q值,强化算法在动态环境中的学习能力,以提高路由的整体性能。仿真结果表明,与蚁群优化算法和改进的蚁群多约束路由算法相比,Q学习量子蚁群路由算法明显改善包投递率、平均端到端时延和节点平均能耗等性能指标,避免了蚁群算法易陷入局部最优解,提高了收敛速度,可适用于具有高速移动节点的微纳卫星网络。  相似文献   

12.
林沛  胡建军 《计算机应用》2013,33(10):2750-2752
认知网络能够提高网络端到端的性能,确保服务质量(QoS)要求。而目前普遍使用的路由算法不具备网络认知能力。针对这一问题,提出一种具有认知能力的负载均衡多路径路由算法,该算法结合了Q学习算法和蚁群算法各自的优点,通过蚁群算法完成路径的建立和维护,Q学习算法实现拥塞规避和负载均衡。使用OPNET仿真比较,表明该算法在时延、带宽利用方面均具有较好的性能。  相似文献   

13.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与...  相似文献   

14.
样本有限关联值递归Q学习算法及其收敛性证明   总被引:5,自引:0,他引:5  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

15.
单Sink节点无线传感网存在部分关键区域节点能量消耗过快、路由选择算法单一及Sink节点失效的问题.多Sink节点无线传感网能有效解决上述问题,研究多Sink节点传感网的路由协议及其存在的不足,提出了一种基于Q学习的路由选择机制.利用该学习方法节点综合考虑各种环境因素,进行周期性的学习训练,优化路径选择,最后按照计算得...  相似文献   

16.
基于每阶段平均费用最优的激励学习算法   总被引:4,自引:0,他引:4  
文中利用求解最优费用函数的方法给出了一种新的激励学习算法,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法,它从求解分阶段最优平均费用函数的方法出发,分析了最优解的存在性,分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到激励学习的研究中来。  相似文献   

17.
针对高速移动状态下的飞行自组网路由协议链路维护困难问题,提出一种基于强化学习的自适应链路状态路由优化算法QLA-OLSR。借鉴强化学习中的Q学习算法,通过感知动态环境下节点邻居数量变化和业务负载程度,构建价值函数求解最优HELLO时隙,提高节点链路发现与维护能力。利用优化Kanerva编码算法的状态相似度机制,降低QLA-OLSR算法复杂度并增强稳定性。仿真结果表明,QLA-OLSR算法能有效提升网络吞吐量,减少路由维护开销,且具有自学习特性,适用于高动态环境下的飞行自组网。  相似文献   

18.
基于有限样本的最优费用关联值递归Q学习算法   总被引:4,自引:2,他引:4  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

19.
易猛  陈庆奎  章刚  赵海燕 《计算机科学》2015,42(1):126-128,141
目前Internet网络环境下,网络参数的随时变化容易造成路由过期,从而使提供的QoS路由无效,为此提出了一种适合参数动态变化的单播QoS路由算法(DPA),该算法在路径代价随时间不断变化的情况下能够自主地选择最优路由节点,解决多约束QoS单播路由选择不精确的问题.实验表明,本路由算法自适应性和扩展性较好,同时在路由选择方面比传统的路由算法能够提供更好的QoS路由.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号