期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张津源蒲天骄李烨王新迎周翔《电网技术》2022,(9):3496-3504

针对分布式电源集中优化调度难以解决隐私保护的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法。该方法可自适应源荷不确定性,在源荷随机波动的情况下实时给出优化调度策略。首先,阐述了基于通信神经网络架构的多智能体深度强化学习方法原理。然后,提出基于多智能体深度强化学习的分区分布式优化调度框架,以日运行成本最低为目标构建日前优化调度模型,并考虑各种运行约束。继而,采用近端策略优化算法对该模型进行离线训练,利用训练好的模型进行在线优化调度决策。最后通过改进IEEE33节点算例进行仿真验证,结果表明,各自治区域在仅利用局部通信的情况下即可计算出各自的近似全局最优解。相似文献

2.

基于强化学习的电动汽车集群实时优化调度策略

下载免费PDF全文

赵小瑾张开宇冯冬涵李恒杰周云《陕西电力》2022,(1):53-59,81

针对大规模电动汽车的实时调度存在维度高和随机性强等问题,提出基于强化学习的电动汽车集群实时优化调度策略。首先,以最小化综合成本（机组发电成本和补贴成本）为目标,建立电动汽车集群参与的电网机组经济调度模型。将实时阶段下的该模型构建为一个马尔可夫决策过程,利用基于最大熵的深度强化学习算法对马尔可夫决策过程进行模型训练和求解。此外,融合强化学习不依赖预测信息和运筹优化算法保证物理约束的优势,将电动汽车充电和机组出力分开优化调度。最后,通过算例验证所提策略在降低成本和削峰填谷方面的可行性和有效性。相似文献

3.

基于深度强化学习算法的“电网脑”及其示范工程应用

徐春雷吴海伟刁瑞盛胡浔惠李雷史迪《电力需求侧管理》2021,23(4):73-78

可再生能源、电力电子设备渗透率持续增大以及大功率交直流混联,电网的动态性、随机性和不确定性显著增强,给电力系统安全稳定运行带来新的挑战.为更有效解决电网中出现的电压、潮流快速波动而导致的安全问题,提出一种基于最大熵深度强化学习算法的智能电网调控辅助决策方法,同时考虑多种控制目标,对电网运行方式进行在线优化控制.该方法将电网调度控制决策建模为马尔科夫决策过程,训练多线程智能体,并采用周期性在线训练机制对智能体的控制性能进行不断提升.基于该方法所研发的辅助决策原型软件部署在国网江苏电力调度控制中心,可与电网调度控制系统环境直接交互,自主学习且不断提升智能体调控决策能力.训练好的智能体可针对电压越限、联络线潮流越限、网损等综合控制目标在毫秒级时间内给出有效控制策略. 相似文献

4.

融合电网运行场景聚类的多任务深度强化学习优化调度

邓柏荣陈俊斌丁巧宜潘振宁余涛王克英侯佳萱《电网技术》2023,(3):978-990

“双碳”目标和新型电力系统建设背景下,新能源的高渗透率接入导致电力系统随机性显著增大、运行方式的分布复杂多样,传统单任务深度强化学习难以自适应源荷两侧的高随机性,调度决策难以满足新型电力系统对风光消纳、功率平衡需求。为此,该文提出融合电网运行场景聚类的多任务深度强化学习优化调度方法。该方法离线训练时利用空间聚类和决策树辨识海量调度运行数据的典型运行场景与重要特征,并构建甄别场景类别的多层感知机分类器;再依据场景类别建立和划分融合聚类多任务深度强化学习模型,从数据源到状态动作设计差异化训练各子任务学习器与模型;在线决策时利用分类器辨识有限运行数据的场景类别,调用模型快速求解实时调度任务,实现高随机场景下的多任务快速迁移学习,保证电力系统优化调度决策的最优性。该文通过算例验证了该方法的解的可行性与经济性。实验结果表明,融合电网运行场景聚类的多任务深度强化学习优化调度算法较单任务算法能够明显提升调度决策经济效益。相似文献

5.

面向隐私保护基于联邦强化学习的分布式电源协同优化策略

蒲天骄杜帅李烨王新迎《电力系统自动化》2023,(8):62-70

针对分布式电源优化调度面临的隐私保护和实时决策问题，提出了基于联邦强化学习的多智能体分布式协同优化策略。首先，构建了基于联邦强化学习的配电网分布式协同优化框架，利用联邦学习避免在多智能体深度强化学习过程中泄露隐私数据。在此框架下，提出了多智能体约束策略优化方法，利用离线训练缩短在线决策时间，支持智能体实时分布式决策。同时，该方法为智能体构建了考虑潮流方程等约束条件的可行域，允许智能体在训练过程中自由探索，提高了收敛速度，并确保实时调度策略满足电力系统安全运行约束。最后，通过算例进行仿真验证，结果表明离线训练时各智能体仅利用局部信息即可实现全局优化，并保证了实时决策和调度策略的安全性。相似文献

6.

基于深度强化学习的微电网优化运行策略

赵鹏杰吴俊勇王燚张和生《电力自动化设备》2022,42(11)

风电、光伏、负荷的不确定性给含有高比例可再生能源的微电网制定运行策略带来了挑战,人工智能技术的发展为解决微电网运行优化问题提供了新思路。基于强化学习框架,将微电网运行问题转化为马尔可夫决策过程,以最大化微电网经济利益和居民满意度为目标,提出一种基于深度强化学习的微电网在线调度方法。为了在深度强化学习训练的过程中高效利用经验,设计一种优先经验存储的深度确定性策略梯度(PES-DDPG)算法,学习各类环境下不同时段的微电网最优调度策略。算例结果表明,PES-DDPG算法能够为微电网提供有效的调度策略,并实现微电网的实时优化。相似文献

7.

计及安全约束的综合能源系统深度强化学习优化调度策略研究

蔺伟山王小君孙庆凯王希豪刘曌和敬涵《电网技术》2023,(5):1970-1983

在“双碳”背景下,综合能源系统多能耦合与梯级利用已成为助力“双碳”目标实现的重要手段。综合能源系统优化运行是一个涉及非线性、非凸的复杂问题,传统求解方法在获得全局优化调度策略上存在一定困难。同时,随着光伏、风电等可再生能源渗透率不断提高以及网络拓扑日趋复杂进一步加剧了该问题的求解难度。强化学习为解决上述问题提供了有效途径,然而目前大部分关于强化学习优化调度的研究较少考虑系统整体安全约束,因此,该文基于深度强化学习构建了考虑安全约束的综合能源系统优化调度模型。首先,将电网与热网潮流约束融入到传统综合能源系统优化调度模型中,实现了对调度策略的安全校验。其次,基于深度强化学习理论将物理调度问题转化为强化学习序贯决策问题,改进了智能体的状态空间、动作空间及奖励函数的设计方法。最后,在离线与在线环境中实现了优化调度决策的求解与应用,并通过算例对比与分析验证了所提方法的有效性与合理性。相似文献

8.

基于深度强化学习的电网自主控制与决策技术

下载免费PDF全文

王之伟陆晓刁瑞盛李海峰徐春雷段嘉俊张宁宇史迪《电力工程技术》2020,39(6):34-43

高比例可再生能源和电力电子设备渗透率的不断增加给电力系统运行与调控带来诸多挑战。本文基于深度强化学习技术（深度确定策略梯度, DDPG）提出了具有在线学习功能的电网自主优化控制与决策框架，即“电网脑”系统；通过不断的学习和经验累积，AI智能体可以在亚秒级时间内根据实时量测数据给出调控指令及预期效果。该系统近期可用于辅助调度员决策，远期可为自动调度提供技术手段。本文以电网电压和联络线潮流控制为例，从多方面详细介绍了自主调控的方法，包括问题描述、控制目标和样本设定、奖惩机制定义、状态空间和控制动作集定义、算法实现流程等。大量的数值仿真实验验证了所提方法强大的学习能力以及应用于电力系统自主控制与决策的可行性。相似文献

9.

基于电网专家策略模仿学习的新型电力系统实时调度

朱介北徐思旸李炳森王云逸王杨俞露杰熊雪君王成山《电网技术》2023,(2):517-530

随着可再生能源的大规模并网,电网运行逐渐表现出高阶不确定性的新特征,给系统安全稳定运行带来严峻挑战。基于模型驱动的传统实时调度方法需占用大量计算资源,而近几年受到广泛关注的强化学习(reinforcement learning,RL)方法由于处理高维复杂电网状态信息,存在训练速度缓慢等问题。为此,该文提出一种可用于电网实时调度的电网专家策略模仿学习方法(gridexpertstrategyimitationlearning,GESIL)。该方法首先基于图论思想建立了电网模型,其次设计了考虑电网安全运行和电力平衡控制的电网专家策略,然后利用模仿学习融合专家策略与所建模型,获得可用于电网调度决策的GESIL智能体。该文在高比例新能源占比的IEEE118节点修正模型中对比了GESIL、传统调度方法和RL方法。分析结果表明,GESIL可更加稳定高效地计算出电网运行优化方案和电力平衡控制策略,显著提升调度决策的优化效果和计算速度。相似文献

10.

基于深度强化学习近端策略优化的电网无功优化方法

张沛朱驻军谢桦《电网技术》2023,(2):562-572

新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性，将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数，并采用近端策略优化算法求解强化学习问题，获得无功优化策略。以改进的IEEE39系统开展案例分析，结果表明所提的奖励函数能提高智能体收敛速度，基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。相似文献

11.

基于深度强化学习的电动汽车充电调度算法研究进展

下载免费PDF全文

张延宇饶新朋周书奎周毅《电力系统保护与控制》2022,50(16):179-187

对电动汽车的充电过程进行优化调度有利于电网安全稳定运行,提升道路通行效率,提高可再生能源利用率,减少用户充电时间和充电费用。深度强化学习可以有效解决电动汽车充电优化调度面临的随机性和不确定性因素的影响。首先,概述了深度强化学习的工作原理,对比分析了不同种类强化学习的特点和应用场合。然后,从静态充电调度和动态充电调度两方面综述了基于深度强化学习的电动汽车充电调度算法研究成果,分析了现有研究的不足。最后,展望了该领域未来的研究方向。相似文献

12.

多智能体深度强化学习驱动的跨园区能源交互优化调度

李扬马文捷卜凡金杨震王彬韩猛《电力建设》2024,(5):59-70

为协调多园区综合能源系统各个园区之间的能量交互,多能源子系统之间的能源转换,实现综合能源系统整体优化调度,提出一种利用多智能体深度强化学习算法学习不同园区的负荷特征,并在此基础上进行决策的综合调度模型。该模型将多园区综合能源系统的调度问题转化为马尔科夫决策过程,并利用深度强化学习算法进行求解,避免了对多园区、多能源子系统之间复杂的能量耦合关系进行建模。仿真结果表明,所提方法可以很好地捕捉到不同园区的负荷特性,并利用其中的互补特性协调不同园区之间进行合理的能量交互,可以实现弃风率由16.3%降低至0,并可以使总运行成本降低5 445.6元,具有良好的经济效益和环保效益。相似文献

13.

综合能源系统混合时间尺度多目标强化学习低碳经济调度EI北大核心CSCD

彭春华陈思畏徐佳璐孙惠娟张沛《电网技术》2022,(12):4914-4923

为解决综合能源系统中多时间尺度异质能源难以协调优化调度问题和响应“双碳”目标号召,该文提出了一种综合能源系统混合时间尺度多目标强化学习低碳经济调度方法。首先,将异质能源子系统的差异化调度时间尺度同步协调为混合时间尺度,建立综合考虑经济性、碳排放和[火用]效率的多目标优化调度模型;然后针对该调度模型,通过融合混合时间尺度设计动作空间、基于状态特性划分状态空间和采用TOPSIS法构造多目标奖励函数,构建一种新型混合时间尺度多目标强化学习方法;并结合近端策略优化算法实现了基于混合时间尺度实时反馈的在线优化调度决策。算例仿真表明,所提方法具有可行性和优越性。相似文献

14.

基于多主体博弈与强化学习的并网型综合能源微网协调调度

刘洪李吉峰葛少云张鹏陈星屹《电力系统自动化》2019,43(1):40-48

针对传统集中式优化调度方法难以全面反映综合能源微网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微网协调调度模型和方法。首先,针对并网型综合能源微网中横向电气热冷各子系统及纵向源网荷储等各环节的不同投资与运营主体,开展了多智能体划分;其次,针对可再生能源服务商、微网系统能源服务商、电动汽车用户等智能体,分别构建了各自的决策模型,并建立了以多智能体间利益均衡为目标的联合博弈决策模型;再次,针对多主体博弈这一高维决策难题,引入人工智能求解方法,提出了基于Nash博弈和强化学习算法的综合能源微网协调调度方法;最后,通过实例验证了所提模型和方法的有效性与实用性。相似文献

15.

基于优势柔性策略-评价算法和迁移学习的区域综合能源系统优化调度

罗文健张靖何宇古庭赟聂祥论范璐钦袁旭峰李博文《电网技术》2023,(4):1601-1615

为提高清洁能源消纳率及减少碳排放对环境的污染，实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优化调度，该文提出了基于优势柔性策略–评价(advantage learning soft actor-critic,ALSAC)算法和迁移学习的区域综合能源系统优化调度方法。利用环境信息与智能体进行通信交互，以低碳、经济为目标实现区域综合能源系统的优化调度。在文中分析了提升柔性策略–评价(soft actor-critic,SAC)鲁棒性的最大熵机制，并与基于策略梯度的多种深度强化学习算法和启发式算法进行了性能对比，随后将优势学习的思想引入SAC的Q值函数更新中，解决了算法对Q值的过估计问题，提升了算法的性能。为提高智能体的学习效率和应对新场景的泛化能力，加入了迁移学习的参数迁移。算例表明，基于ALSAC算法和迁移学习的优化调度策略具有较好的鲁棒性、泛化能力和高效的学习效率，实现区域综合能源系统的灵活高效调度。相似文献

16.

考虑风险管理的电力市场多时段均衡分析方法

唐成鹏张粒子邓晖肖艳炜《电力系统自动化》2022,46(10):171-180

均衡分析方法是电力市场运行效率分析及机制设计论证的有力工具,而如何计及差价合同和市场主体风险偏好的影响,以及高效求解多时段均衡模型,已成为使电力市场均衡分析方法实用化亟待解决的问题。从差价合同的确定、考虑风险偏好的电力市场均衡建模、基于多智能体深度强化学习的求解等方面,提出了考虑风险管理的电力市场多时段均衡分析方法。在模型框架方面,分别针对市场化差价合同和政府授权差价合同,提出了基于市场均衡结果合理确定合同价格及其曲线的方法;采用条件风险价值评估市场风险,并建立了发电商报价决策的随机优化模型;结合前瞻性安全约束机组组合和经济调度模型建立了现货市场出清模型,以保证结果的合理性。在求解算法方面,通过改进深度强化学习方法,提出了基于风险管理的多智能体深度强化学习算法,并对模型进行迭代求解。最后,通过算例验证了均衡分析方法的合理性和有效性,并剖析了不同比例市场化差价合同或政府授权差价合同,以及不同风险偏好对市场均衡的影响。相似文献

17.

不确定性环境下基于深度强化学习的综合能源系统动态调度

下载免费PDF全文

蔺伟山王小君孙庆凯刘曌和敬涵蒲天骄《电力系统保护与控制》2022,50(18):50-60

随着综合能源系统中间歇性能源和负荷不确定性的逐步增强,传统的调度方法局限于固定物理模型及参数设定,难以较好地动态响应源荷的随机波动。针对这一问题,提出了一种基于深度强化学习的综合能源系统动态调度方法。首先,以数据驱动方式构建面向综合能源系统的深度强化学习模型,通过智能体与综合能源系统的持续交互,自适应学习调度策略,降低对物理模型的依赖程度。其次,通过添加随机扰动的方式表征源荷不确定性变化特征,针对不确定性变化特征改进深度强化学习模型的状态空间、动作空间、奖励机制以及训练流程等关键环节,并经由近端策略优化算法优化求解,实现了综合能源系统的动态调度决策。最后,通过算例仿真验证了所提方法在不同时间尺度以及不确定性环境下的可行性和有效性。相似文献

18.

梯级水库深度强化学习长期随机优化调度研究

下载免费PDF全文

李文武周佳妮裴本林张一凡《水力发电学报》2023,(11):21-32

梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的联合分布函数;再根据时序差分思想分别建立目标神经网络和主神经网络,分别逼近当前和下一状态对应的动作状态价值,并采用ε-贪婪探索利用策略获取最优调度策略;最后将主要参数分步调优保障调度效益。算例对比表明,深度Q网络算法相较于Q学习算法及其改进算法提升了优化调度目标值,加快收敛速度,有效解决了梯级水库随机优化调度中的维数灾问题。相似文献

19.

基于多目标多智能体强化学习的低轨卫星切换策略

下载免费PDF全文

李瑞杨巧丽张新澳《国外电子测量技术》2024,43(3):106-113

针对低轨卫星通信系统(LSM) 中地面用户流量需求分布不均衡和用户并发切换过多等挑战,提出了一种基于多目标多智能体协同深度强化学习的低轨卫星切换策略,以地面小区用户流量需求满意度、切换时延、用户冲突为优化目标,采用多智能体协同深度学习算法对目标进行优化,其中每个智能体仅负责一个小区用户的卫星切换策略,智能体之间通过共享奖励实现协作,从而达到多目标优化的效果。仿真结果表明,所提的切换策略的平均用户流量满意度为73.1%,平均切换时延为 343 ms,对比启发式算法能够更好满足地面小区用户的流量需求、平衡卫星网络的负载。相似文献

20.

基于柔性行动器–评判器深度强化学习的电–气综合能源系统优化调度 总被引：2，自引：0，他引：2

乔骥王新迎张擎张东霞蒲天骄《中国电机工程学报》2021,(3):819-832

多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流系统的连续动作控制,且能够灵活处理风电、光伏、多能负荷等源荷不确定性问题,实现多场景下的电-气综合能源优化调度决策。首先,构建面向电-气综合能源系统调度的强化学习基本框架,介绍柔性行动器-评判器强化学习的基本原理;然后,构建与智能体交互的电-气综合能源系统环境模型,设计深度强化学习的动作与状态空间、奖励机制、神经网络结构、学习流程等关键环节;最后,针对2个电-气综合能源系统算例进行强化学习优化调度结果分析。相似文献