首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
异构车载网络环境中的网络选择策略对于保障车辆的网络服务质量极为重要,目前基于多属性决策的网络选择方法通过多种网络属性综合评估候选网络的性能,从而实现最佳网络的接入。然而,该类方法在执行网络切换时通常存在盲目选择最佳网络或网络切换阈值相对固定的问题,容易导致“切换阻塞”现象的发生,也难以满足动态变化的车载环境和用户需求。针对上述问题,提出一种基于自适应切换阈值的异构车载网络选择方法 AHT-NSM。首先基于车辆的网络驻留时间进行候选网络的预筛选,接着利用结合主客观权重的效用函数评估候选网络的性能,最后设计一种自适应切换阈值提高网络选择方法在动态车载网络中的适应性。对比实验结果表明所提出的AHT-NSM方法在降低网络切换阻塞概率和提高网络资源利用率方面表现更优。  相似文献   

2.
赵英男  刘鹏  赵巍  唐降龙 《自动化学报》2019,45(10):1870-1882
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果.  相似文献   

3.
网络控制系统中一种新形式的开闭环迭代学习控制   总被引:1,自引:0,他引:1  
赵众  高颖  刘志立 《控制理论与应用》2013,30(10):1335-1341
本文研究了网络控制系统中迭代学习控制方法, 借鉴网络控制系统的分层结构形式, 提出了一种远程开环本地闭环的迭代学习控制形式. 这种形式的学习律中, 只有开环学习律的离散数据通过网络传输, 对控制系统进行前馈补偿同时降低了网络丢包对系统的实时影响. 针对线性系统, 利用2–D系统的分析方法, 给出了网络控制中开闭环迭代学习控制的收敛性判别条件. 仿真和实验结果证实了所提方法的可行性和有效性.  相似文献   

4.
段晓燕 《计算机应用》2010,30(8):2049-2051
针对传统迭代学习控制在面临新的环境或控制任务时学习时间长、收敛速度慢的问题,首先引入迭代学习初始控制算法,并给出了算法收敛的充分必要条件;然后,利用小脑模型连接控制网络(CMAC)与反馈PID网络进行综合,在系统的历史控制经验基础上,估计系统的期望控制输入,作为迭代学习控制器的初始控制输入,再由开闭环P型迭代学习律逐步改善控制效果,从而避免了对初始控制输入量的盲目选择,使得系统的实际输出只需较少的迭代次数就能达到跟踪的精度要求。机器人系统的仿真结果表明了该算法的可行性与有效性。  相似文献   

5.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与...  相似文献   

6.
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。  相似文献   

7.
自适应RBF网络Q学习控制   总被引:1,自引:0,他引:1  
利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.  相似文献   

8.
赵彦清  朱琦 《计算机应用》2011,31(6):1461-1464
针对异构网络中的多样业务需求,并且为了能够适应网络环境的动态变化,为每一个会话选择一个最合适的网络为其服务同时实现网络负载的均衡,以HSDPA和WiMax构成的异构网络为背景,基于Q学习算法,提出了一种异构网络环境下无线接入网络选择的新算法。该算法在进行网络选择时不仅考虑到网络的负载情况,还充分考虑了发起会话的业务属性、终端的移动性以及终端在网络中所处位置的不同。仿真结果表明该算法降低了系统阻塞率,提高了频谱效用,实现了网络选择的自主性。  相似文献   

9.
为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法(Improved Dueling Deep Double [Q]-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。  相似文献   

10.
针对异构环境下不同业务类型的终端对于接入网络的不同质量需求,提出一种基于改进Markov模型的网络选择算法。利用Markov模型的预测能力对即时类业务与非即时类业务终端构建相应的收益函数,应用数学迭代求解法得到长期期望收益最高的网络选择策略。仿真结果表明,该算法能有效提高网络资源利用率,降低网络阻塞率及终端网络切换次数。  相似文献   

11.
该文对异构网络环境下的QoS映射方法进行了介绍,提出了一种基于简单策略的动态映射方法和实施方案。仿真结果表明该方法可以保证业务在异构网络环境下传输时得到有效的服务质量保证,并可在一定情况下提高网络资源利用率。  相似文献   

12.
周桥  伊鹏  门浩崧 《计算机应用》2017,37(4):948-953
针对网络功能虚拟化环境下组成服务功能链的虚拟网络功能故障所引起的网络服务故障问题,提出一种最大化资源效用的虚拟服务功能备份方法来提高网络可靠性。首先,对虚拟服务功能备份问题进行详细分析并建立了可靠性评估模型,提出了改进的备份机制,并证明了该机制与其他机制相比的优势;其次,对全网络设计了全局备份算法和备份选择策略来对相应的虚拟网络功能选取备份直到满足可靠性需求。仿真实验结果表明,与GREP方法、联合备份机制加上随机选择策略(JP+random selection)及双重共享式备份机制加上随机选择策略(DSP+random selection)相比,该方法在可靠性和资源利用率上取得了优异的性能,特别是服务功能链请求接受率提高18.8%~25%,资源效用利用率提高15%~20%。实验结果表明该方法能较为有效地利用资源来提升网络可靠性。  相似文献   

13.
Finding effective ways to collect the usage of network resources in all kinds of applications to ensure a distributed control plane has become a key requirement to improve the controller’s decision making performance. This paper explores an efficient way in combining dynamic NetView sharing of distributed controllers with the behavior of intra-service resource announcements and processing requirements that occur in distributed controllers, and proposes a rapid multipathing distribution mechanism. Firstly, we establish a resource collecting model and prove that the prisoner’s dilemma problem exists in the distributed resource collecting process in the Software-defined Network (SDN). Secondly, we present a bypass path selection algorithm and a diffluence algorithm based on Q-learning to settle the above dilemma. At last, simulation results are given to prove that the proposed approach is competent to improve the resource collecting efficiency by the mechanism of self-adaptive path transmission ratio of our approach, which can ensure high utilization of the total network we set up.  相似文献   

14.
将智能手机设备加入基于非结构化P2P网络的资源共享系统中能够满足人们对资源共享的多样化、便利性、高频性、实时性、高效性等要求,但是该系统网络规模的扩张和网络节点互异性的加大,必将导致系统资源搜索效率的降低、冗余信息的剧增以及网络更加不稳定。为了解决这些问题,文中设计了一种改进的基于节点兴趣和Q-learning的资源搜索机制。首先将节点根据兴趣相似度进行兴趣聚类,划分兴趣集,然后根据兴趣集中节点的能力值构建兴趣树,该结构避免了消息环路的产生,极大地降低了冗余信息;在资源搜索中,兴趣树内采用洪泛算法转发消息,兴趣树之间采用基于Q-learning的消息转发机制,不断强化最可能获取目标资源的路径,查询消息优先在这些路径上传播。另外,针对“热点”资源问题,设计了自适应热点资源索引机制,减少了重复路径搜索,进一步减少了冗余消息量;针对节点失效的问题,给出了根节点冗余机制和捎带检测的策略方法,分别解决了根节点失效和普通节点失效导致的兴趣树的不完整性问题,分析表明该方法能够减少消息冗余量。仿真实验结果表明,与GBI-BI算法和Interest CN算法相比,所提搜索算法能够提高命中率,缩短响应时间,减少冗余信息,具有较好的综合性能,最终解决了由于智能手机设备加入P2P网络导致的资源搜索效率下降、网络流量开销大的问题。  相似文献   

15.
In the next generation wireless networks, different technologies belonging to one or more operators should be integrated to form a heterogeneous environment based on an IP core network infrastructure. This ensures user mobility and service continuity by maintaining connections when switching between various technologies and it introduces new resources and possibilities for applications. In this context, an automatic interface selection based on instantaneous and practical constraints and user preferences (Quality of Service (QoS) parameters, available resources, security, power consumption, etc.) is therefore required. The different network selection and handover schemes proposed in the literature can be classified into three approaches according to who is responsible for making the handover decision: the terminal, the network or by a cooperation between both of them. However, these approaches keep presenting some drawbacks; namely the problem of resources management and network load balancing whenever the selection is controlled by the mobile terminal (MT) and the problem of scalability and unknown operator's management policy whenever the selection is rather controlled by the network.In this article, first we propose a MIH based approach for handover initiation and preparation for heterogeneous wireless network. The proposed framework is based on the principals of IEEE 802.21 for context information gathering and optimized handover decision making. Second, we propose a new architecture and new network selection scheme that explicitly take into account the current resource usage and the user preferences. Furthermore, our solution ensures the selection of the most suitable network for each flow while taking into consideration its expectations in terms of QoS. A feasibility study of implementing a new architecture on a single MT is evaluated by using typical scenarios and using various algorithms. Thanks to the introduced function entities and modules in the proposed architecture, network utilization balancing and user and application expectations, which are successfully assured without operator intervention. Performance analysis shows that the proposed algorithm best meets the common quality requirements.  相似文献   

16.
周勇  刘锋 《微机发展》2008,18(4):63-66
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。提出将神经网络应用于Q学习,系统只需学习部分状态-动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力。然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率。  相似文献   

17.
未知环境下基于有先验知识的滚动Q学习机器人路径规划   总被引:1,自引:0,他引:1  
胡俊  朱庆保 《控制与决策》2010,25(9):1364-1368
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意.  相似文献   

18.
电力信息网络的安全与稳定是当今社会发展的重要保障,随着电力信息网络越来越庞大和复杂,如何高效合理地建立电力信息防护网络成为研究人员关注的重点之一。在自动化电力信息网络中,其防御策略通常缺乏统筹管理,只能针对少数设备进行防护,存在着更新速度慢、更新周期长、无法自动更新和资源分配不均等问题。本文提出一种基于最优初始值Q学习的电力信息网络防御策略学习算法,该算法以强化学习中的Q学习算法为框架,利用生成对抗网络思想,通过攻击智能体和防御智能体的模拟对抗学习安全策略。算法中的防御智能体使用Q学习方法更新其防御策略,利用历史防御经验在线改进防御策略,避免了人为手动操作。在训练中引入最优初始值极大加快了系统防御性能的训练速度。实验结果验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号