首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
针对麻雀搜索算法在解决复杂问题时存在的收敛精度降低以及陷入局部最优等问题,文中提出了一种基于自适应t分布与随机游走的麻雀搜索算法。该算法在初始化过程中使用反向学习来生成反向解,从中选择优秀的个体组成初始化种群。在原始麻雀搜索算法上采用自适应t分布策略和高斯随机游走策略可以提高麻雀个体的寻优能力,同时防止算法早熟。仿真结果表明,相较于对比算法,文中所提算法的收敛精度和收敛速度都有所提升。  相似文献   

2.
张佳鹏  李琳  朱叶 《电子科技》2021,34(5):66-71
行为决策系统能够综合环境及自车信息,使自动驾驶车辆产生安全合理的驾驶行为,是实现无人驾驶的核心.强化学习算法采用一种自监督学习的方式,使自动驾驶车辆的决策系统在与环境的交互过程中,通过不断改进自身策略自主学习到最优的决策模型,为构建有效的决策系统提供了方向.文中总结了近年来基于强化学习的行为决策方法在提高决策精度、提高...  相似文献   

3.
潘筱茜  张姣  刘琰  王杉  陈海涛  赵海涛  魏急波 《信号处理》2022,38(12):2572-2581
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制编码方式。然后,采用基于剪裁的近端策略优化算法(PPO-Clip, Proximal Policy Optimization-Clip)求解获得系统的最优联合干扰规避策略。PPO-Clip算法在多回合训练中以小数量样本迭代更新,避免了策略梯度算法中步长难以确定和更新差异过大的问题。最后,分别在扫频干扰、随机扫频干扰和智能阻塞干扰环境下验证了所提算法的有效性和可靠性。  相似文献   

4.
李昇平 《电子学报》2005,33(10):1825-1829
本文首先研究了不稳定线性离散时间系统的最优线性滤波器设计问题,利用状态观测器结合互质分解方法,将不稳定系统的最优线性滤波问题转化成可解的模型匹配问题,从而可利用已有的逐点优化算法进行求解,推广了线性滤波器的逐点优化设计方法.然后,本文还进一步研究了线性离散时间系统线性滤波器的最优性问题,从理论上证明了线性离散系统的线性滤波器能与非线性滤波器达到相同的最优性.  相似文献   

5.
针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。  相似文献   

6.
殷锋社 《电子设计工程》2011,19(11):115-117
强化学习具有与环境交互的优势,笔者提出的基于知识的Q-学习算法(KBQL)就是利用Q-学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空间,以加速强化学习的收敛性,同时采用Agent的学习机制克服其知识的不精确性,从而提高学习算法的鲁棒性和适应性。  相似文献   

7.
《信息技术》2015,(5):121-124
针对DVRP(Dynamic Vehicle Routing Problem,动态车辆路径问题)的复杂性和灵活性,考虑到DVRP问题中的客户需求、交通流和车队管理,提出将MATSim(Multi-Agent Transport Simulation,多Agent交通仿真)和DVRP算法相结合的策略,利用MATSim仿真框架构造一个动态的现实世界环境,结合DVRP算法来求解DVRP问题。DVRP算法采用的是结合进化算法和局部搜索策略的模因算法,同时给出了3种不同客户拓扑结构下的测试用例,并比较了DVRP算法与蚁群算法和禁忌搜索算法的结果,表明该算法具有更高的效率。  相似文献   

8.
提出了一种基于Q学习的动态切换策略,用于最大化用户体验(QoE).基于Q学习的动态切换策略选择最佳网络,不仅利用当前网络状态还利用了未来网络状态和用户终端状态.不同于其他动态规划算法,该算法不需要获取无线网络环境的信息,而是通过利用用户终端过去经验来学习最优策略.仿真结果显示,该动态切换策略能以较少网络间切换次数来接近甲骨文优化算法性能,从而使用户体验得到更优质的网络音频服务.  相似文献   

9.
Agent强化学习是机器学习的一个重要分支。阐述了Agent强化学习算法的基本理论,建立了求解类货郎担等NP问题的数学模型,给出了Agent强化学习算法解决这类问题的框架和基本方法,并运用该方法成功地解决了一个赛程安排问题,较传统方法有一定的改进。  相似文献   

10.
夏学文  桂凌  戴志锋  谢承旺  魏波 《电子学报》2016,44(5):1090-1100
针对粒子群算法逃离局部最优能力差、易早熟收敛、求解精度低等缺点,提出了一种具有多尺度选择性学习和探测-收缩机制的PSO 算法.在多尺度选择性学习机制中,粒子根据其自身进化状态在拓扑结构、邻居个体、目标变量维等多个尺度上进行选择性学习,提升粒子个体的学习效率;在探测-收缩机制中,算法利用历史信息指导种群最优解进行探测,提高其逃离局部最优的能力,当判断种群历史最优解处于全局最优解附近时,执行空间收缩策略,将种群的搜索空间限定在较小的一个区域,增强算法的开采能力,提高算法的求解精度.通过和其它PSO算法在22个典型测试函数的实验对比表明,本算法能有效克服早熟收敛、加快收敛速度、提高求解精度.  相似文献   

11.

Recently distributed real-time database systems are intended to manage large volumes of dispersed data. To develop distributed real-time data processing, a reality and stay competitive well defined protocols and algorithms must be required to access and manipulate the data. An admission control policy is a major task to access real-time data which has become a challenging task due to random arrival of user requests and transaction timing constraints. This paper proposes an optimal admission control policy based on deep reinforcement algorithm and memetic algorithm which can efficiently handle the load balancing problem without affecting the Quality of Service (QoS) parameters. A Markov decision process (MDP) is formulated for admission control problem, which provides an optimized solution for dynamic resource sharing. The possible solutions for MDP problem are obtained by using reinforcement learning and linear programming with an average reward. The deep reinforcement learning algorithm reformulates the arrived requests from different users and admits only the needed request, which improves the number of sessions of the system. Then we frame the load balancing problem as a dynamic and stochastic assignment problem and obtain optimal control policies using memetic algorithm. Therefore proposed admission control problem is changed to memetic logic in such a way that session corresponds to individual elements of the initial chromosome. The performance of proposed optimal admission control policy is compared with other approaches through simulation and it depicts that the proposed system outperforms the other techniques in terms of throughput, execution time and miss ratio which leads to better QoS.

  相似文献   

12.
在认知无线电中,对频谱共享的典型研究具有以下两方面的缺点:第一,目前的研究大都基于信道状态完全已知的马尔科夫建模,使得这类模型的应用受到很大的限制;第二,大部分研究都是基于信道感知的在线学习,没有考虑不同信道状态下的最优传输的在线学习。针对以上问题,提出了一种新的算法:将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真分析表明:在信道不完全可知情况下的多臂赌博机在线学习算法和单门限最优离线传输策略相比,同样能获得最优K步策略。同时,本文通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。  相似文献   

13.
针对网络功能虚拟化/软件定义网络 (NFV/SDN)架构下,网络服务请求动态到达引起的服务功能链(SFC)部署优化问题,该文提出一种基于改进深度强化学习的虚拟网络功能(VNF)部署优化算法。首先,建立了马尔科夫决策过程 (MDP)的随机优化模型,完成SFC的在线部署以及资源的动态分配,该模型联合优化SFC部署成本和时延成本,同时受限于SFC的时延以及物理资源约束。其次,在VNF部署和资源分配的过程中,存在状态和动作空间过大,以及状态转移概率未知等问题,该文提出了一种基于深度强化学习的VNF智能部署算法,从而得到近似最优的VNF部署策略和资源分配策略。最后,针对深度强化学习代理通过ε贪婪策略进行动作探索和利用,造成算法收敛速度慢等问题,提出了一种基于值函数差异的动作探索和利用方法,并进一步采用双重经验回放池,解决经验样本利用率低的问题。仿真结果表示,该算法能够加快神经网络收敛速度,并且可以同时优化SFC部署成本和SFC端到端时延。  相似文献   

14.

针对面向混合能源供应的 5G 异构云无线接入网(H-CRANs)网络架构下的动态资源分配和能源管理问题,该文提出一种基于深度强化学习的动态网络资源分配及能源管理算法。首先,由于可再生能源到达的波动性及用户数据业务到达的随机性,同时考虑到系统的稳定性、能源的可持续性以及用户的服务质量(QoS)需求,将H-CRANs网络下的资源分配以及能源管理问题建立为一个以最大化服务提供商平均净收益为目标的受限无穷时间马尔科夫决策过程(CMDP)。然后,使用拉格朗日乘子法将所提CMDP问题转换为一个非受限的马尔科夫决策过程(MDP)问题。最后,因为行为空间与状态空间都是连续值集合,因此该文利用深度强化学习解决上述MDP问题。仿真结果表明,该文所提算法可有效保证用户QoS及能量可持续性的同时,提升了服务提供商的平均净收益,降低了能耗。

  相似文献   

15.

在动态干扰环境下的多节点无线传感器网络中,随着状态-动作空间的增大,传统强化学习难以收敛. 为克服这一问题,本文提出一种基于迁移强化学习的快速抗干扰算法,即将多智能体Q学习和值函数迁移方法相结合. 首先,将多节点通信抗干扰问题建模为马尔科夫博弈;然后,引入互模拟关系度量不同状态-动作对之间的相似性;最后,采用多智能体Q学习算法学习抗干扰策略,并在每一步Q值更新后,根据不同状态-动作对之间的相似性进行值函数迁移. 仿真结果表明,在分时隙传输的在线抗干扰问题中,所提算法的抗干扰性能显著优于正交跳频法和随机跳频法,在达到相同抗干扰效果时,所需的迭代次数远少于常规Q学习算法.

  相似文献   

16.
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。  相似文献   

17.
针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、链路带宽资源和前传网络资源联合分配的端到端时延最小化模型,并将其转化为离散时间马尔可夫决策过程(MDP)。而后,在该MDP中采用A-C学习算法与环境进行不断交互动态调整SFC部署策略,优化端到端时延。进一步,为了实现并加速该A-C算法在其他相似目标任务中(如业务请求到达率普遍更高)的收敛过程,采用迁移A-C学习算法实现利用源任务学习的SFC部署知识快速寻找目标任务中的部署策略。仿真结果表明,该文所提算法能够减小且稳定SFC业务数据包的队列积压,优化系统端到端时延,并提高资源利用率。  相似文献   

18.
Many communication and networking systems can be modeled as resource-sharing systems with multiple classes of calls. Call admission control (CAC) is an essential component of such systems. Markov decision process (MDP) tools can be applied to analyze and compute the optimal CAC policy that optimizes certain performance metrics of the system. But for most practical systems, it is prohibitively difficult to compute the optimal CAC policy using any MDP algorithm because of the "curse of dimensionality". We are, therefore, motivated to consider two families of structured CAC policies: reservation and threshold policies. These policies are easy to implement and have good performance in practice. However, since the number of structured policies grows exponentially with the number of call classes and the capacity of the system, finding the optimal structured policy is a complex unsolved problem. In this paper, we develop fast and efficient search algorithms to determine the parameters of the structured policies. We prove the convergence of the algorithms. Through extensive numerical experiments, we show that the search algorithms converge quickly and work for systems with large capacity and many call classes. In addition, the returned structured policies have optimal or near-optimal performance, and outperform those structured policies with parameters chosen based on simple heuristics  相似文献   

19.
We consider the problem of average throughput maximization per total consumed energy in packetized sensor communications. Our study results in a near-optimal transmission strategy that chooses the optimal modulation level and transmit power while adapting to the incoming traffic rate, buffer condition, and the channel condition. We investigate the point-to-point and multinode communication scenarios. Many solutions of the previous works require the state transition probability, which may be hard to obtain in a practical situation. Therefore, we are motivated to propose and utilize a class of learning algorithms [called reinforcement learning (RL)] to obtain the near-optimal policy in point-to-point communication and a good transmission strategy in multinode scenario. For comparison purpose, we develop the stochastic models to obtain the optimal strategy in the point-to-point communication. We show that the learned policy is close to the optimal policy. We further extend the algorithm to solve the optimization problem in a multinode scenario by independent learning. We compare the learned policy to a simple policy, where the agent chooses the highest possible modulation and selects the transmit power that achieves a predefined signal-to-interference ratio (SIR) given one particular modulation. The proposed learning algorithm achieves more than twice the throughput per energy compared with the simple policy, particularly, in high packet arrival regime. Beside the good performance, the RL algorithm results in a simple, systematic, self-organized, and distributed way to decide the transmission strategy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号