首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
多智能体强化学习在群体控制领域具有广泛应用,然而传统的强化学习方法(如 Q-Learning 或策略梯度)在多智能体 环境中表现不佳。在训练过程中,每个智能体的策略不断变化。当一个智能体基于环境信息做出决策时,其他智能体的决策 可能已经影响了环境信息,导致智能体感知的转移概率分布和奖赏函数发生变化,使得环境变得非平稳,训练无法有效进行。 为了缓解这一问题,研究了一种基于多头自注意力的多智能体强化学习算法。该方法考虑了其他智能体的行动策略,利用多 头自注意力算法使智能体能够学习对决策影响最大的因素,成功地学习了复杂的多智能体协调策略。在实验结果中平均回 报达值到了0.82,远高于传统算法的表现。实验结果表明,所提出的基于多头自注意力的多智能体强化学习算法能够有效解 决环境不平稳导致的多智能体学习困难问题,提高了多智能体强化学习算法的收敛速度和平稳性。  相似文献   

2.
智能软开关能够有效解决分布式光伏大规模接入配电网引起的电压波动问题,但会导致区域间协作程度加深,而现阶段使用多智能体深度强化学习算法进行电压优化时,各智能体仅使用各自区域内的奖励进行训练,导致智能体缺乏协同,输出策略难以保证最优性。为此提出考虑区域间辅助奖励的配电网电压优化方法,首先建立基于多智能体深度强化学习的多时间尺度电压优化框架,其次针对控制智能软开关的智能体,将各自区域内奖励定义为主奖励,邻近区域内奖励定义为辅助奖励,然后通过主、辅助奖励损失函数关于网络参数梯度的数量积分析辅助奖励对训练的有利程度,并采用演化博弈方法自适应修改辅助奖励参与因子;最后,在改进的IEEE 33节点系统验证了所提方法能够稳定智能体训练过程,提升智能体策略的优化效果。  相似文献   

3.
“N-1”静态安全校验是电力系统安全稳定分析的重要内容,当系统不满足静态安全性时,需要采取预防控制,而调整发电机出力是最重要的预防控制措施。传统的方法是依据专家知识和经验做尝试性进行发电机功率调整,需耗费较多时间;深度强化学习具有“离线训练、在线端对端形成策略”优点,在电力系统预防控制中有很好的应用前景,但如何缩小搜索空间、提高训练速度,是需要解决的问题。该文提出一种基于柔性动作–评价深度强化学习算法的双智能体发电机调整方法。考虑到输电网具有PQ可解耦这一特点,设计了集中式训练的合作型双智能体结构,由两个智能体分别承担发电机有功功率调整和电压调整任务,相互合作,有效减少了搜索空间,提高了模型的稳定性,并根据不同运行方式下全网“N-1”校验时线路负载和节点电压判断系统安全性,且结合效用理论设计了奖励函数,进一步提高了收敛速度。IEEE 39节点系统算例表明,所提方法得到的智能体在多种运行方式下可快速有效生成预防控制策略,验证了所提方法的有效性。  相似文献   

4.
紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智能紧急切机决策制定方法。首先,构建基于DRL的紧急切机决策制定框架。然后,在智能体处理多个发电机决策时,由于产生的高维决策空间使得智能体训练困难,提出决策空间压缩和应用分支竞争Q(branching dueling Q,BDQ)网络的两种解决方法。接着,为了进一步提高智能体的探索效率和决策质量,在智能体训练中融合紧急切机控制相关知识经验。最后,在10机39节点系统中的仿真结果表明,所提方法可以在多发电机决策时快速给出有效的紧急切机决策,应用BDQ网络比决策空间压缩的决策性能更好,知识融合策略可引导智能体减少无效决策探索从而提升决策性能。  相似文献   

5.
在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该算法在实际应用时存在训练效率普遍较低的问题。对此,提出了一种基于改进双延迟深度确定性策略梯度算法的调度决策模型。首先基于综合能源系统低碳经济调度特性建立序贯马尔可夫决策过程模型;进而应用改进双延迟深度确定性策略梯度算法构建并训练神经网络,避免过估计并提高网络输出稳定性。同时,为提升网络训练效率,以求和树对训练过程中的历史经验数据进行存储和经验回放采样。实验结果表明,所提方法能对综合能源系统低碳经济调度问题进行有效求解,且比传统强化学习算法表现更优。  相似文献   

6.
针对强化学习在解决端到端自动驾驶行为决策问题时面临采样效率低、环境适应性差、决策效果不佳的问题,提出循环近端策略优化算法(RPPO),采用LSTM与移动翻转瓶颈卷积模块构建策略网络与价值网络,有效整合前后帧的关联信息,实现智能体对多变情况的预测,提高智能体对环境的快速认知能力,并在价值网络添加L2正则化层,进一步提高算法的泛化能力,最后手动设置智能体在2个连续帧中保持动作不变,引入先验知识约束搜索空间,加快算法收敛。通过CARLA开源模拟环境测试,该改进方法与传统方法相比,奖励曲线明显占优,且直行、转弯、指定路线行驶3类任务的成功率分别提高了10%、16%、30%,证明提出的方法更有效。  相似文献   

7.
当前多智能体强化学习在值分解的算法中无法充分考虑到多智能体间的协作关系,并且使用的随机策略在探索过程中容易出现越过最优点,陷入局部最优解的情况。针对以上问题,本文提出了一种深度交流多智能体强化学习算法。本文通过使用卷积和全连接结构在值分解网络中设计了一种通信机制以此来增强多智能体之间的协作。接着,本文提出了一种新的自适应探索策略,为了平衡数据探索与利用之间的矛盾,加入了周期性的衰减策略。最后,通过仿真结果验证了本文提出方法在部分场景中达到25.8%的性能提升,提高了多智能体的合作能力。  相似文献   

8.
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。  相似文献   

9.
贾浩 《电力电子技术》2023,(10):105-108
基于多智能体一致性方法,提出了考虑状态受限的自适应模糊固定时间二次电压控制器和基于控制障碍函数的二次频率控制器。在多智能体一致性控制中,将每一个分布式电源(DG)视为一个非线性智能体,智能体之间通过稀疏网络进行通信。对反馈线性化后的未知变量进行自适应模糊估计以提高控制器的自适应能力。引入类超螺旋方法改进非奇异快速终端滑模,使其由有限时间收敛拓展成固定时间收敛。考虑系统状态受限问题,采用障碍Lyapunov函数(BLF)和控制障碍函数分别设计电压与频率控制器,使系统状态在预设的约束范围内。最后通过实验验证了所提控制器的有效性。  相似文献   

10.
分布式电源出力不确定性和负荷功率扰动给孤立多微电网系统稳定带来较大威胁。提出基于多智能体柔性动作评价(MA-SAC)算法的孤立多微电网负荷频率控制器(LFC),同时采用柔性动作评价(SAC)算法对自动电压调节器(AVR)的比例积分(PI)控制参数进行优化调整。建立了多微电网LFC和AVR组合模型。对于电压和频率控制器的设计,分别根据SAC算法和多智能体深度强化学习(MA-DRL)框架建立各自的状态、动作空间与奖励函数。选择合适的神经网络与训练参数经过预学习生成深度强化学习控制器。最后通过仿真分析,基于SAC算法优化的PI控制器能更快跟踪电压参考值;多微电网系统遭遇功率扰动时,MA-SAC控制器可以快速维持频率稳定。  相似文献   

11.
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modified deep Q network,MDQN)算法的多园区综合能源系统能量管理方法。首先,采用独立于园区的外部气象数据、历史互动功率数据,构建了基于长短期记忆(long short-term memory,LSTM)深度网络的各园区综合能源系统外部互动环境等值模型,降低了强化学习奖励函数的计算复杂度;其次,提出一种基于k优先采样策略的MDQN算法,用k-优先采样策略来代替ε贪心策略,克服了大规模动作空间中探索效率低下的问题;最后,在含3个园区综合能源系统的算例中进行验证,结果表明MDQN算法相比原DQN算法具有更好的收敛性与稳定性,同时可以提升园区经济效益达29.16%。  相似文献   

12.
鉴于BP神经网络较易陷入局部极小点且收敛速度慢、RBF神经网络因其激励函数是冗余的非正交基故其逼近函数的表达式并不唯一等缺点,构造以Harr正交小波尺度函数为激励函数的神经网络并提出其相应的权值训练新方法,将该正交小波神经网络应用于实现对云广特高压直流和贵广Ⅱ直流的在线紧急直流功率支援在线协调预测控制.仿真结果表明:正交小波神经网络采用正交尺度函数作为激励函数,能保证网络逼近的唯一性,且训练算法简单、收敛迅速;正交小波神经网络能映射聚合成的特征输入数据,准确给出紧急直流功率支援控制量,具有较高的可靠性和准确性.  相似文献   

13.
为了提高谐波和间谐波分析的速度、精度和抗噪性能,将基于分段迭代的增强型Adaline神经网络应用于电力系统谐波和间谐波分析。该网络在加汉宁窗双谱线插值FFT算法的基础上,将采样数据按采样时间分段,依次用各段对应的误差信息来调整增强型Adaline神经网络的参数。该方法结合一点迭代法和全部点迭代法的优点,既将各时段内的误差进行平均,减少噪声对参数调整的影响,又充分保留误差中包含的谐波和间谐波信息,提高网络的精度。另外,根据参数估计误差和频率对误差函数一阶偏导之间的关系,提出修正信号幅值最大分量对应的频率调整量的处理方式,提高网络的实时性和精度。仿真结果验证了分析结论的正确性。  相似文献   

14.
为解决灰狼优化算法存在寻优性能差、收敛性差等问题,提出了一种新型灰狼优化算法。该算法在初始化部分使用反向学习策略生成了有序的个体,有效改善了算法的收敛速度;设计新型的非线性收敛因子和优化个体位置更新策略来协调算法的搜索能力,降低陷入局部最优的概率;引进精英选择保留策略,促使种群进化加速,提高算法收敛速度。基本函数测试和航迹规划仿真实验两者的结果表明新型灰狼优化算法具有较强的收敛性和寻优能力,并且该算法规划航迹所花费的平均航迹代价值比灰狼优化算法少19.9%。  相似文献   

15.
基于分类识别深度置信网络的电力负荷预测算法   总被引:1,自引:0,他引:1  
针对传统神经网络负荷预测方法收敛速度慢、预测误差大的问题,提出一种基于分类识别的深度置信网络的负荷预测算法。对输入的历史负荷数据进行归一化预处理,并对深度置信网络采用层次无监督贪婪预训练方法分层预训练,将得到的结果作为监督学习训练概率模型的初始值。其深度置信网络由多层受限玻尔兹曼机构成,并采用分类识别机制和对比散度的方法训练预权值,来改善分类识别深度置信网络的学习性能。仿真结果显示,在基于200次负荷训练和温度训练的基础上,该负荷预测算法比自组织模糊神经网络和BP神经网络的收敛速度更快,预测精度更高。  相似文献   

16.
提出一种基于支持向量机(support vector machine,SVM)的电流互感器(current transducer,CT)二次侧饱和电流补偿算法。以最近1周期故障电流采样数据的归一化值作为输入向量,以故障后5个周期的电流数据作为训练样本,利用SVM来建立CT二次侧饱和电流与一次侧电流之间的非线性关系,进而对饱和电流进行精确补偿。仿真分析表明,该方法在各种CT饱和条件下均能有效补偿,对于相同的训练样本,其补偿精度要高于神经网络方法。  相似文献   

17.
基于模糊神经解耦控制的双馈水轮发电机系统仿真   总被引:2,自引:0,他引:2  
李辉  杨顺昌 《水力发电学报》2007,26(3):134-138,128
双馈水轮发电机系统是一个涉及水力、水轮机和发电机的综合复杂系统。针对系统具有多变量、非线性、强耦合和参数不确定性的特点,本文提出了一种两级串联结构的自适应模糊神经网络解耦控制策略,前级为基于智能权函数规则的自调整模糊控制器,后级为基于动态耦合特性的自适应神经网络解耦控制器,并从理论上证明了学习算法的收敛性。为了验证所提出控制策略的有效性和正确性,本文对双馈水轮发电机系统在水力、水轮机和发电机参数变化时的鲁棒性分别进行了仿真研究。与常规PID控制的仿真结果比较表明,提出的解耦控制策略能较好地克服参数变化和对象模型结构变化对运行性能的影响,具有鲁棒性好,解耦能力强的优点。  相似文献   

18.
The present paper proposes an implementation of a relatively new recurrent neural network architecture—the echo state network (ESN)–within the frame of heuristic dynamic programming. The ESN is trained online to estimate the utility function and to adapt the control policy of an embodied agent. With the advantage of an easy training algorithm, the ESN architecture offers a simple way to calculate the derivatives required for adapting the controller. Experimental results are provided to validate the proposed learning approach. Copyright © 2012 John Wiley & Sons, Ltd.  相似文献   

19.
基于改进粒子群算法的中压配电网无功优化   总被引:1,自引:0,他引:1  
张庭场  耿光飞 《电网技术》2012,36(2):158-162
建立了以年费用最小为目标函数的无功优化数学模型,提出一种融合裂变和变异操作的分合群粒子群算法求解该模型,并结合对系统分区、合理设置补偿上限等方法减小搜索范围,实现了同时求解补偿点和补偿量。算法在标准粒子群优化(particle swarm optimization,PSO)算法的基础上通过分群和裂变,保持粒子的多样性,避免收敛早熟;通过合群和变异,加强算法的搜索精度,提高算法的收敛稳定性。用IEEE 33节点系统进行仿真计算,与标准PSO算法对比表明,改进PSO算法在计算精度、收敛稳定性等方面具有明显优势;与无功二次精确矩法对比表明,改进PSO算法具有自动调整补偿点个数的能力,补偿方案经济性更好,能有效解决中压配电网的无功优化问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号