基于改进TD3算法的综合能源系统低碳经济调度 |
| |
作者姓名: | 邱革非 何虹辉 刘铠铭 罗世杰 何超 沈赋 |
| |
作者单位: | 昆明理工大学电力工程学院 |
| |
基金项目: | 国家自然科学基金资助项目(52107097);;云南省应用基础研究计划资助项目(202101BE070001-061,202201AU070111); |
| |
摘 要: | 在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该算法在实际应用时存在训练效率普遍较低的问题。对此,提出了一种基于改进双延迟深度确定性策略梯度算法的调度决策模型。首先基于综合能源系统低碳经济调度特性建立序贯马尔可夫决策过程模型;进而应用改进双延迟深度确定性策略梯度算法构建并训练神经网络,避免过估计并提高网络输出稳定性。同时,为提升网络训练效率,以求和树对训练过程中的历史经验数据进行存储和经验回放采样。实验结果表明,所提方法能对综合能源系统低碳经济调度问题进行有效求解,且比传统强化学习算法表现更优。
|
关 键 词: | 综合能源系统 低碳经济调度 电力系统调度 深度强化学习算法 求和树 双延迟深度确定性策略梯度算法 |
|
|