首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
2.
将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法(Dropout),即在训练模型时随机丢弃节点,解决过拟合问题。以中国股市为例,选取16只中证100指数成分股作为风险资产进行实验。结果表明,本文基于深度强化学习方法构建的投资组合,在实验期间的价值增幅显著高于对照组(等权重组合),2年达到65%,约为对照组的2.5倍,表明了本文方法的有效性。而且通过进一步实验,表明了当用于训练的数据离测试数据时间越近,则本文构建的投资组合表现越好。  相似文献   

3.
物理主机工作负载的不确定性容易造成物理主机过载和资源利用率低,从而影响数据中心的能源消耗和服务质量。针对该问题,通过分析物理主机的工作负载记录与虚拟机资源请求的历史数据,提出了基于负载不确定性的虚拟机整合(WU-VMC)方法。为了稳定云数据中心各主机的工作负载,该方法首先利用虚拟机的资源请求拟合物理主机工作负载,并利用梯度下降方法计算虚拟机与物理主机的虚拟机匹配度;然后,利用匹配度进行虚拟机整合,从而解决负载不确定造成的能耗增加和服务质量下降等问题。仿真实验结果表明,WU-VMC方法降低了数据中心的能源消耗,减少了虚拟机迁移次数,提高了数据中心的资源利用率及服务质量。  相似文献   

4.
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法.首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制.对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一...  相似文献   

5.
人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型(2D模型)再复杂模型(3D模型)的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。  相似文献   

6.
针对传统光伏(PV)功率预测模型受功率随机波动性影响以及易忽略重要信息导致预测精度低的问题,将注意力机制分别与深度确定性策略梯度(DDPG)和循环确定性策略梯度(RDPG)相结合提出了ADDPG和ARDPG模型,并在此基础上提出一个PV功率预测框架。首先,将原始PV功率数据以及气象数据标准化,并将PV功率预测问题建模为马尔可夫决策过程(MDP),历史功率数据和当前气象数据则作为MDP的状态;然后,将注意力机制加入DDPG和RDPG的Actor网络,赋予状态中各个分量不同的权重来突出重要且关键的信息,并通过深度强化学习智能体和历史数据的交互来学习数据中的关键信息;最后,求解MDP问题得到最优的策略,作出准确的预测。在DKASC、Alice Springs光伏系统数据上的实验结果表明,ADDPG和ARDPG在均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)上均取得了最优结果。可见,所提模型能够有效提高PV功率的预测精度,也可以推广到其他预测领域如电网预测、风力发电预测等。  相似文献   

7.
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。  相似文献   

8.
深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。  相似文献   

9.
在流媒体边缘云资源调度中,传统启发式方法或规划方法多数存在自适应性不足、时间复杂度高等问题。基于迁移代价、负载均衡等约束,提出一种流媒体边缘云会话调度策略。以流媒体边缘云系统的状态信息作为属性特征,结合深度学习与确定性策略进行梯度强化学习,以解决用户请求接入问题。实验结果表明,该策略具有较好的请求接入效果,且能够降低迁移代价,同时缩短了运行时间。  相似文献   

10.
基于值函数和策略梯度的深度强化学习综述   总被引:1,自引:0,他引:1  
  相似文献   

11.
在网络功能虚拟化(Network Function Virtualization,NFV)环境下,保证用户服务功能链(Service Function Chain,SFC)服务质量的同时节约资源消耗,降低运营成本,对运营商来说至关重要.联合考虑SFC部署和无线接入网资源分配,提出一种基于深度强化学习的SFC多维资源联合...  相似文献   

12.
深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。  相似文献   

13.
在雾计算系统架构基础上, 针对数据中心高能耗、应用任务负载的随机动态性以及用户对应用的低时延要求, 提出一种基于A2C (advantage actor-critic)算法的以最小化能源消耗和平均响应时间为目标的容器整合方法, 利用检查点/恢复技术实时迁移容器, 实现资源整合. 构建从数据中心系统状态到容器整合的端到端决策模型, 提出自适应多目标奖励函数, 利用基于梯度的反向传播算法加快决策模型的收敛速度. 基于真实任务负载数据集的仿真实验结果表明, 该方法能够在保证服务质量的同时有效降低能耗.  相似文献   

14.
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏...  相似文献   

15.
基于深度强化学习的平行企业资源计划   总被引:1,自引:0,他引:1  
秦蕊  曾帅  李娟娟  袁勇 《自动化学报》2017,43(9):1588-1596
传统的企业资源计划(Enterprise resource planning,ERP)采用静态化的业务流程设计理念,忽略了人的关键作用,且很少涉及系统性的过程模型,因此难以应对现代企业资源计划的复杂性要求.为实现现代企业资源计划的新范式,本文在ACP(人工社会(Artificial societies)、计算实验(Computational experiments)、平行执行(Parallel execution))方法框架下,以大数据为驱动,融合深度强化学习方法,构建基于平行管理的企业ERP系统.首先基于多Agent构建ERP整体建模框架,然后针对企业ERP的整个流程建立序贯博弈模型,最后运用基于深度强化学习的神经网络寻找最优策略,解决复杂企业ERP所面临的不确定性、多样性和复杂性.  相似文献   

16.
李铭夫  毕经平  李忠诚 《软件学报》2014,25(7):1388-1402
近年来,数据中心庞大的能源开销问题引起广泛关注.虚拟化管理平台可以通过虚拟机迁移技术将虚拟机整合到更少的服务器上,从而提高数据中心能源有效性.对面向数据中心节能的虚拟机整合研究工作进行调研,并总结虚拟机整合研究存在的3个挑战.针对已有工作未考虑虚拟机等待资源调度带来的服务器资源额外开销这种现象,开展了资源调度等待开销感知的虚拟机整合研究.从理论和实验上证明了在具有实际意义的约束条件下,存在着虚拟机等待资源调度带来的服务器资源额外开销,且随着整合虚拟机数量的增长保持稳定.基于典型工作负载的实验结果表明,这个额外开销平均占据了11.7%的服务器资源开销.此外,提出了资源预留整合(MRC)算法,用于改进已有的虚拟机整合算法.算法模拟实验结果表明,MRC算法相比于常用的虚拟机整合算法FFD(first fit decreasing),明显降低了服务器资源溢出概率.  相似文献   

17.
由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。  相似文献   

18.
随着移动互联网的快速发展,许多利用手机App打车的网约车平台也应运而生.这些网约车平台大大减少了网约车的空驶时间和乘客等待时间,从而提高了交通效率.作为平台核心模块,网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客,从而提升平台的运营效率,近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deep Q-network, DQN)来解决这一问题.然而,由于基于值函数的方法存在局限,无法应用到高维和连续的动作空间.提出了一种具有动作采样策略的执行者-评论者(actor-critic with action sampling policy, AS-AC)算法来学习最优的空驶网约车调度策略,该方法能够感知路网中的供需分布,并根据供需不匹配度来确定最终的调度位置.在纽约市和海口市的网约车订单数据集上的实验表明,该算法取得了比对比算法更低的请求拒绝率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号