首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
当前多智能体强化学习在值分解的算法中无法充分考虑到多智能体间的协作关系,并且使用的随机策略在探索过程中容易出现越过最优点,陷入局部最优解的情况。针对以上问题,本文提出了一种深度交流多智能体强化学习算法。本文通过使用卷积和全连接结构在值分解网络中设计了一种通信机制以此来增强多智能体之间的协作。接着,本文提出了一种新的自适应探索策略,为了平衡数据探索与利用之间的矛盾,加入了周期性的衰减策略。最后,通过仿真结果验证了本文提出方法在部分场景中达到25.8%的性能提升,提高了多智能体的合作能力。  相似文献   

2.
董雷  刘雨  乔骥  王新迎  王春斐  蒲天骄 《电网技术》2021,45(12):4729-4737
电热联合系统优化调度问题对于实现系统的能源互补、经济运行具有重要意义.电热联合系统优化运行涉及非线性、非凸、多目标问题求解,传统方法在计算实时性与迭代收敛性等方面存在困难.文章首先构建电热联合系统优化数学模型,将电热联合系统按照不同利益主体划分为多智能体,基于多智能体深度确定性策略梯度强化学习算法,建立了适用于电热联合...  相似文献   

3.
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。  相似文献   

4.
针对低轨卫星通信系统(LSM) 中地面用户流量需求分布不均衡和用户并发切换过多等挑战,提出了一种基于多目标 多智能体协同深度强化学习的低轨卫星切换策略,以地面小区用户流量需求满意度、切换时延、用户冲突为优化目标,采用多 智能体协同深度学习算法对目标进行优化,其中每个智能体仅负责一个小区用户的卫星切换策略,智能体之间通过共享奖励 实现协作,从而达到多目标优化的效果。仿真结果表明,所提的切换策略的平均用户流量满意度为73.1%,平均切换时延为 343 ms,对比启发式算法能够更好满足地面小区用户的流量需求、平衡卫星网络的负载。  相似文献   

5.
针对分布式电源集中优化调度难以解决隐私保护的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法。该方法可自适应源荷不确定性,在源荷随机波动的情况下实时给出优化调度策略。首先,阐述了基于通信神经网络架构的多智能体深度强化学习方法原理。然后,提出基于多智能体深度强化学习的分区分布式优化调度框架,以日运行成本最低为目标构建日前优化调度模型,并考虑各种运行约束。继而,采用近端策略优化算法对该模型进行离线训练,利用训练好的模型进行在线优化调度决策。最后通过改进IEEE33节点算例进行仿真验证,结果表明,各自治区域在仅利用局部通信的情况下即可计算出各自的近似全局最优解。  相似文献   

6.
配电网中光伏、风机设备出力随机波动以及负荷波动带来的电压波动、网损增加等问题,给配电网在线无功优化带来了挑战.本文采用一种无模型的深度确定性策略梯度(MADDP G)算法多智能体强化学习框架,采用集中训练、分散执行的方式解决无功优化问题.MADDP G算法将每一个智能体当作一个行动者(Actor),在离线训练过程中每个...  相似文献   

7.
面向“双碳”目标及新型电力系统建设要求,电力市场机制设计对于减少碳排放、促进绿色低碳发展具有重要意义。碳市场与绿证市场建设是促进电力系统节能减排的有效手段,研究电力市场、碳市场、绿证市场之间的耦合关系,对于设计3个市场间的衔接机制、促进电力系统碳减排与清洁能源发展具有重要的指导意义。为此,针对碳市场与绿证市场对电力市场均衡的耦合影响展开研究。首先,根据碳市场与绿证市场的交易规则分别建立了电-碳市场、电-绿证市场和电-碳-绿证市场的双层优化模型;然后,利用多智能体深度强化学习算法对上述均衡模型进行求解;最后,在修改后的IEEE 30节点系统上进行算例仿真,分析了碳市场和绿证市场对发电商报价策略、电力市场出清电价等的影响以及碳市场和绿证市场之间的耦合关系。  相似文献   

8.
基于多智能体Nash-Q强化学习的综合能源市场交易优化决策   总被引:1,自引:0,他引:1  
目前求解综合能源市场多参与主体竞价博弈问题普遍采用数学推导法与启发式算法,但两类方法均须以完全信息环境为前提假设,同时前者忽略市场参与者非凸非线性属性,后者易陷入局部最优解.为此,引入多智能体Nash-Q强化学习算法,将市场参与主体构建成智能体,经由智能体在动态市场环境中反复探索与试错寻找博弈均衡点.首先,构建竞价决策...  相似文献   

9.
针对微电网孤岛运行模式下新能源发电强随机性导致的系统频率波动,提出了基于多智能体相关均衡强化学习(Correlated Equilibrium Q(λ),CEQ(λ))的微电网智能发电控制方法。在所搭建含有光伏发电、风力发电、小水电、微型燃气轮机和飞轮储能的微电网负荷频率控制(Load frequency Control,LFC)模型基础上,以频率偏差作为状态输入,提出了一种微电网孤岛运行模式下的CEQ(λ)智能发电控制器。仿真结果显示,与PI控制、单智能体R(λ)控制相比,CEQ(λ)控制器具有更好的在线学习能力,能显著增强孤岛微电网的鲁棒性和适应性,有效提高了频率的考核合格率。  相似文献   

10.
电力现货市场定价机制是市场设计的重点问题之一,与发电商交易行为相互影响。定价机制设计需要考虑发电商可能的交易行为,而不同定价机制下发电商报价策略不同,为系统性地解决这一嵌套难题,形成2篇不同侧重点的论文。作为首篇,该文探讨强化学习在发电商报价决策中的适用性,完整考虑系统和分区边际电价的两阶段过程,构建节点、系统、分区3种边际电价定价机制下的发电商报价双层优化模型,并基于可变学习速率和策略爬山算法相结合的多智能体强化学习方法对模型进行迭代求解。该双层模型中,上层为发电商报价决策层,下层为市场出清层,以决策层优化的发电商报价信息和出清层计算的发电商中标信息作为上下层之间的交互数据,不断优化发电商报价策略。最后,以IEEE 39系统为例,选择4个典型负荷场景,优化3种定价机制下的发电商报价,结果表明:所提模型和算法可有效求解发电商最优报价策略,获取市场均衡结果。  相似文献   

11.
针对主动电压控制问题,深度强化学习能够有效地解决数学优化方法在精确性和实时性方面的不足。但传统多智能体深度强化学习方法存在信用分配、过度泛化等问题,难以学习到全局最优的协调策略,控制效果较差。为此,提出了一种基于价值分解深度强化学习的分布式光伏主动电压控制方法。将主动电压控制问题建模为分布式部分可观测马尔可夫决策过程,然后基于中心化训练和去中心化执行框架,提出分解式价值网络、集中式策略梯度2项改进措施:将全局价值网络分解为个体价值网络和混合网络,并采用所有智能体的当前策略进行集中参数更新。改进的IEEE 33节点配电网系统的算例结果表明,所提方法表现出了优越的稳压减损控制性能,且在训练速度、场景鲁棒性等方面具备一定的优势。  相似文献   

12.
The future communities are becoming more and more electrically connected via increased penetrations of behind-the-meter (BTM) resources, specifically, electric vehicles (EVs), smart buildings (SBs), and distributed renewables. The electricity infrastructure is thus seeing increased challenges in its reliable, secure, and economic operation and control with increased and hard to predict demands (due to EV charging and demand management of SBs), fluctuating generation from renewables, as well as their plug-N-play dynamics. Reinforcement learning has been extensively used to enable network entities to obtain optimal policies. The recent development of deep learning has enabled deep reinforcement learning (DRL) to drive optimal policies for sophisticated and capable agents, which can outperform conventional rule-based operation policies in applications such as games, natural language processing, and biology. Furthermore, DRL has shown promising results in many resource management tasks. Numerous studies have been conducted on the application of single-agent DRL to energy management. In this paper, a fully distributed energy management framework based on multi-agent deep reinforcement learning (MADRL) is proposed to optimize the BTM resource operations and improve essential service delivery to community residents.  相似文献   

13.
随着电动汽车的应用推广,换电站的调度优化逐渐成为研究热点。传统的基于换电需求预测值的调度策略在实际应用中面临着难以适应动态干扰因素、预测误差累积等问题。为了解决这些问题,提出了一种基于带基线的蒙特卡罗策略梯度法的换电站实时调度策略,用于优化换电站的充放电策略以及响应电池数量。提出了带基线的蒙特卡罗策略梯度强化学习,并为换电站实时调度问题选取合适的状态空间和动作空间;设计了奖励函数对智能体进行离线训练,从电池状态数据、分时电价和排队电动汽车数量中学习得到最优策略网络;在离线训练好的模型基础上进行实时调度策略测试。基于换电站的服务可用率和经济效益验证了所提调度策略的有效性和经济性,算例结果表明所提策略能对电网负荷起到一定的削峰填谷作用。  相似文献   

14.
含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问题,构建了以网络损耗最小为优化目标的多智能体分散式电压管控框架。然后采用多智能体深度确定性策略梯度算法对智能体进行离线训练,并使用训练完成的智能体进行在线电压管控。最后,基于改进的IEEE33节点系统进行了算例仿真和分析。结果表明,各智能体可以根据各自节点的电气信息求解出近似的全局最优解。  相似文献   

15.
In this paper, an evolutionary reinforcement learning system with time‐varying parameters that can learn appropriate policy in dynamical POMDPs is proposed. The proposed system has time‐varying parameters that can be adjusted by using reinforcement learning. Hence, the system can adapt to the time variation of the dynamical environment even if its variation cannot be observed. In addition, the state space of the environment is divided evolutionarily. Thus, one need not divide the state space in advance. The efficacy of the proposed system is shown by mobile robot control simulation under the environment belonging to dynamical POMDPs. The environment is the passage that has gates iterate opening and closing. © 2006 Wiley Periodicals, Inc. Electr Eng Jpn, 156(1): 54–60, 2006; Published online in Wiley InterScience ( www.interscience.wiley.com ). DOI 10.1002/eej.20170  相似文献   

16.
基于再励学习和遗传算法的交通信号自组织控制   总被引:3,自引:0,他引:3  
提出一种将再励学习与遗传算法相结合的遗传再励学习方法对交通信号进行自组织控制,再励学习是针对第五个道路交叉口交通流的优化,修线个信号灯周期的绿性比,而遗传算法产生局部学习过程的全局优化标准,即是修正信号灯周期的大小,这种方法克服了现有的控制方法需要大量数据传输通讯、准确的交通模型等缺陷,将局部优化和全局优化统一起来。通过计算机仿真实验表明了方法有效笥。  相似文献   

17.
贾巍  雷才嘉  高慧  韩传家  陈吕鹏  陈俊斌 《电测与仪表》2019,56(14):75-82,123
为提高电力系统的运行安全性,本文将电力系统风险评估理论引入到传统无功优化中,建立了考虑运行风险的多目标无功优化数学模型,并为此提出了一种全新的迁移部落强化学习算法,该算法将人工智能算法的随机搜索机制和强化学习算法的迭代模式有机融合,利用知识矩阵储存部落寻优信息,通过知识迁移显著提高了在线学习阶段算法的速率。IEEE 118节点标准系统的仿真表明:迁移部落强化学习算法在保证较好的全局寻优性能的同时,速度可达传统人工智能算法的2-10倍,有效解决了考虑风险的多目标无功优化的动态快速求解。  相似文献   

18.
针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函数。其次,构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律,补偿动力学系统中的未知项。最后,通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数,行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明,该算法不仅可以实现对恒定速度以及时变速度的跟踪,还可以在嵌入式平台上进行实现。  相似文献   

19.
介绍了电力信息网络总体防护体系结构及安全现状,阐述了在电力信息网中常用的防火墙、入侵检测系统(IDS)等防护手段,分析了当前入侵检测方法及难以确定正常与异常的阀值、误报率和漏报率高的不足。提出了基于半马尔可夫决策过程(SMDP)强化学习的IDS模型。论述了强化学习的理论、算法及衡量标准,马尔可夫决策过程,SMDP在电力信息网络中的应用。改进后的SMDP学习算法,使系统的误报率降低、检测率提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号