期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞胜平韩忻辰袁志明崔东亮《控制与决策》2022,37(9):2407-2417

高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. 相似文献

2.

移动边缘计算中基于深度强化学习的计算卸载调度方法

詹文翰王瑾朱清新段翰聪叶娅兰《计算机应用研究》2021,38(1):241-245,263

针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。相似文献

3.

基于双深度网络的安全深度强化学习方法

朱斐吴文伏玉琛刘全《计算机学报》2019,42(8)

相似文献

4.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

5.

一种深度强化学习的C-RAN动态资源分配方法

张永棠《小型微型计算机系统》2021,(1):132-136

移动边缘计算(MEC)技术已成为云无线接入网(C-RAN)提供近距离服务的一个很有前途的例子,从而减少了服务延迟,节约了能源消耗.本文考虑一个多用户MEC系统,解决了计算卸载策略和资源分配策略问题.我们将延迟总成本和能耗作为优化目标,在一个动态的环境中获得一个最优的策略.提出了一个基于深度强化学习的优化框架来解决资源分配问题,利用深度神经网络(DNN)对批评者的价值函数进行估计,从当前状态直接提取信息,不需要获取准确的信道状态.从而降低了优化目标的状态空间复杂度.参与者使用另一个DNN来表示参数随机策略,并在批评者的帮助下改进策略.仿真结果表明,与其它方案相比,该方案显著降低了总功耗. 相似文献

6.

异构网中具有服务质量约束的高能效微基站部署方法

张洋洋汤红波游伟王晓雷赵宇《计算机应用》2017,37(8):2133-2138

针对异构密集网络中基站密度增大带来的网络能耗过高问题,提出一种异构网络中高能效的微基站部署方法。首先,考虑微基站候选位置可行性以减轻环境条件的影响;其次,在不同的用户分布状态下对优化目依概率进行加权,增强了对不同用户分布场景的适应性;最后,通过对微基站部署数目、位置和功率配置的联合优化来提升系统能效,并提出了一种高能效的微基站部署算法。仿真表明,与仅优化微基站数量和部署位置的方法相比,所提方法提升能效最高达26%。实验结果表明,相对于不考虑功率的部署方法,所提出的联合优化方法能够有效提升系统能效,同时验证了微基站功率对异构网络能效的影响。相似文献

7.

基于深度强化学习的通信网络资源分配方法

张冬冬《信息与电脑》2023,(18):167-169

由于现有的资源分配方法吞吐量小,节点缓存压力大,提出基于深度强化学习的通信网络资源分配方法。首先,运用深度强化学习法提取数据特征,增强模型的学习能力。其次,根据当前的状态做出最佳的动作,选择对应的分配动作,调整资源比例。最后,构建异构网络模型,共享网络中的频谱资源。实验结果表明,当迭代次数增加到150次时,该方法的吞吐量达到平稳状态,优于对照组。相似文献

8.

基于深度强化学习的WRSN动态时空充电调度

王艺均冯勇刘明刘念伯《软件学报》2024,35(3):1485-1501

高效的移动充电调度是构建长生命期、可持续运行的无线可充电传感器网络(WRSN)的关键之一.现有基于强化学习的充电策略只考虑了移动充电调度问题的一个维度,即移动充电器(MC)的路径规划,而忽略了充电调度问题中的另一维度,即充电时长调整,因而仍然存在性能限制.提出一种基于深度强化学习的WRSN动态时空充电调度方法(SCSD),建立充电序列调度和充电时长动态调整的深度强化学习模型.针对移动充电调度中离散的充电序列规划和连续的充电时长调整问题,使用DQN为待充电节点优化充电序列,并基于DDPG计算并动态调整序列中待充电节点的充电时长.通过分别从空间和时间两个维度的优化,在避免节点缺电失效的同时,所提出的SCSD可实现充电性能的有效提高.大量仿真实验结果表明,SCSD与现有的几种有代表性的充电方案相比,其充电性能具有明显的优势. 相似文献

9.

基于深度强化学习的移动网络边缘缓存策略

杜雨《电脑编程技巧与维护》2023,(4):74-77

为了应对回程链路的负载过重、用户进行内容请求时能耗过高的问题，提出了一种基于深度强化学习的边缘缓存策略。从移动边缘计算（MEC）异构体系结构出发，通过对系统能耗进行分析，将系统中的能耗问题转换成混合整数非线性规划（MINLP）问题，建立了基于马尔科夫决策过程的缓存处理机制，并提出了一种基于DQN的边缘缓存算法。通过实验仿真证明了所提出的算法可以有效降低能耗。相似文献

10.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

11.

基于多线程并行强化学习的建筑节能方法

下载免费PDF全文

陈建平康怡怡胡龄爻陆悠吴宏杰傅启明《计算机工程与应用》2019,55(15):219-227

提出一种基于并行强化学习的建筑节能方法，该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架，其新颖点在于：在经验回放过程中引入自模拟度量方法，通过计算样本之间的距离，选取低相似度的样本构造多样样本池，Agent的学习过程从多样样本池中选取样本学习，可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明，所提出的并行算法有更快的学习速率和收敛速度，能更快地求解出最优策略，并拥有更高的运行效率。相似文献

12.

能量收集无线通信系统中基于强化学习的能量分配策略

王英恺王青山《计算机科学》2021,48(7):333-339

随着物联网的普及,对物联网终端设备可使用能量的要求也在提高。能量收集技术拥有广阔前景,其能通过产生可再生能量来解决设备能量短缺问题。考虑到未知环境中可再生能量的不确定性,物联网终端设备需要合理有效的能量分配策略来保证系统持续稳定工作。文中提出了一种基于DQN的深度强化学习能量分配策略,该策略通过DQN算法直接与未知环境交互来逼近目标最优能量分配策略,而不依赖于环境的先验知识。在此基础上,还基于强化学习的特点和系统的非时变系统特征,提出了一种预训练算法来优化该策略的初始化状态和学习速率。在不同的信道数据条件下进行仿真对比实验,结果显示提出的能量分配策略在不同信道条件下均有好于现有策略的性能,且兼具很强的变场景学习能力。相似文献

13.

Hybrid Dynamic Control Algorithm for Humanoid Robots Based on Reinforcement Learning 总被引：1，自引：0，他引：1

Duśko M. Katić Aleksandar D. Rodić Miomir K. Vukobratović 《Journal of Intelligent and Robotic Systems》2008,51(1):3-30

In this paper, hybrid integrated dynamic control algorithm for humanoid locomotion mechanism is presented. The proposed structure of controller involves two feedback loops: model-based dynamic controller including impart-force controller and reinforcement learning feedback controller around zero-moment point. The proposed new reinforcement learning algorithm is based on modified version of actor-critic architecture for dynamic reactive compensation. Simulation experiments were carried out in order to validate the proposed control approach.The obtained simulation results served as the basis for a critical evaluation of the controller performance. 相似文献

14.

基于深度强化学习的网约车动态路径规划

郑渤龙明岭峰胡琦方一向郑凯李国徽《计算机研究与发展》2022,59(2):329-341

随着移动互联网的快速发展,许多利用手机App打车的网约车平台也应运而生.这些网约车平台大大减少了网约车的空驶时间和乘客等待时间,从而提高了交通效率.作为平台核心模块,网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客,从而提升平台的运营效率,近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deep Q-network, DQN)来解决这一问题.然而,由于基于值函数的方法存在局限,无法应用到高维和连续的动作空间.提出了一种具有动作采样策略的执行者-评论者(actor-critic with action sampling policy, AS-AC)算法来学习最优的空驶网约车调度策略,该方法能够感知路网中的供需分布,并根据供需不匹配度来确定最终的调度位置.在纽约市和海口市的网约车订单数据集上的实验表明,该算法取得了比对比算法更低的请求拒绝率. 相似文献

15.

基于强化学习的综合能源系统管理综述

熊珞琳毛帅唐漾孟科董朝阳钱锋《自动化学报》2021,47(10):2321-2340

为了满足日益增长的能源需求并减少对环境的破坏, 节能成为全球经济和社会发展的一项长远战略方针, 加强能源管理能够提高能源利用效率、促进节能减排. 然而, 可再生能源和柔性负载的接入使得综合能源系统(Integrated energy system, IES)发展成为具有高度不确定性的复杂动态系统, 给现代化能源管理带来巨大的挑战. 强化学习(Reinforcement learning, RL)作为一种典型的交互试错型学习方法, 适用于求解具有不确定性的复杂动态系统优化问题, 因此在综合能源系统管理问题中得到广泛关注. 本文从模型和算法的层面系统地回顾了利用强化学习求解综合能源系统管理问题的现有研究成果, 并从多时间尺度特性、可解释性、迁移性和信息安全性4个方面提出展望. 相似文献

16.

基于深度强化学习的舰载机动态避障方法

薛均晓孔祥燕郭毅博鲁爱国李鉴万曦徐明亮《计算机辅助设计与图形学学报》2021,33(7):1102-1112

针对高度异构、动态的航母甲板作业场景中的舰载机避障问题,提出一种结合预测算法和深度强化学习的避障方法.该方法包含场景建模、奖励模型和轨迹预测模型等模块.首先基于智能体状态和动作空间对航母甲板场景进行建模;然后利用最小二乘法对场景中动态障碍物的位置进行实时轨迹预测,并构造了包含路径预测模块的深度强化学习方法——环境预测深... 相似文献

17.

基于启发式强化学习的动态CRE偏置选择算法

谷静邓逸飞张新《计算机工程》2020,46(5):200-206

随着通信用户数量的不断增长,低功率基站逐渐出现负载不均衡问题,小区边缘用户受到的干扰逐步增加,从而导致整个小区的通信质量降低。为解决该问题,针对双层异构网络场景,提出一种基于启发函数进行小区范围扩展(CRE)偏置值动态选择的HSARSA(λ)算法。利用启发函数改进强化学习中的SARSA(λ)算法,通过该算法寻找出最优CRE偏置值,以缓解宏基站高热点负载压力并提高网络容量。仿真结果表明,相比SARSA(λ)和Q-Learning算法,HSARSA(λ)算法的边缘用户吞吐量分别提高约7%和12%,系统能效分别提高约11%与13%,系统通信质量得到较大提升。相似文献

18.

基于增强学习的摄像机网络节点动态选择方法

李骞孙正兴陈松乐夏士明《软件学报》2015,26(S2):8-19

摄像机节点动态选择问题是摄像机网络应用中的一个难点.提出了一种基于增强学习的节点动态选择方法.采用视觉信息评分作为单步回报设计了节点选择策略的Q-学习算法,为了加速算法收敛速度,利用摄像机空间拓扑关系初始化Q值表,并基于Gibbs分布进行非贪心尝试.从目标可见性、朝向、清晰度和切换次数设计视觉评价函数反映视频信息丰富程度和视觉舒适度.实验结果表明,该节点动态选择方法能够有效地反映视频中的目标状态信息,选择结果切换平滑,满足实际应用需要. 相似文献

19.

基于样本效率优化的深度强化学习方法综述

张峻伟吕帅张正昊于佳玉龚晓宇《软件学报》2022,33(11):4217-4238

深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向. 相似文献