电–热综合能源系统的优化调度对于实现系统的能源互补、经济运行具有重要意义。本文提出一种基于柔性行动器–评判器(Soft Actor-Critic, SAC)算法的电–热综合能源系统经济调度方法,首先针对电–热综合能源系统优化调度问题进行建模,然后基于SAC框架将该问题转化为强化学习模型,搭建了强化学习环境。最后对基于SAC的电–热综合能源系统优化运行解结果进行分析,并进一步验证该方法的有效性。 The optimal dispatch of integrated electricity-heat energy system (IEHS) is of great significance to the energy complementation and economic operation of the system. An economic dispatch method for IEHS based on the Soft Actor-Critic (SAC) algorithm is proposed in this paper. Firstly, an optimal dispatch model of IEHS is established, and then the problem is transformed into a reinforcement learning model based on the SAC framework, and a reinforcement learning environment is built. Finally, the optimal operation result of integrated electricity-heat energy system based on SAC is analyzed, and the simulations show that the proposed method can effectively solve the problem and reduce the operation cost.
电–热综合能源系统的优化调度对于实现系统的能源互补、经济运行具有重要意义。本文提出一种基于柔性行动器–评判器(Soft Actor-Critic, SAC)算法的电–热综合能源系统经济调度方法,首先针对电–热综合能源系统优化调度问题进行建模,然后基于SAC框架将该问题转化为强化学习模型,搭建了强化学习环境。最后对基于SAC的电–热综合能源系统优化运行解结果进行分析,并进一步验证该方法的有效性。
电–热综合能源系统,优化调度,深度强化学习,柔性行动器–评判器
Yu Liu1, Lei Dong1, Chunfei Wang1, Mengting Li1, Ji Qiao2, Xinying Wang2
1North China Electric Power University, Beijing
2China Electric Power Research Institute, Beijing
Received: Jan. 13th, 2021; accepted: Mar. 21st, 2021; published: Apr. 9th, 2021
The optimal dispatch of integrated electricity-heat energy system (IEHS) is of great significance to the energy complementation and economic operation of the system. An economic dispatch method for IEHS based on the Soft Actor-Critic (SAC) algorithm is proposed in this paper. Firstly, an optimal dispatch model of IEHS is established, and then the problem is transformed into a reinforcement learning model based on the SAC framework, and a reinforcement learning environment is built. Finally, the optimal operation result of integrated electricity-heat energy system based on SAC is analyzed, and the simulations show that the proposed method can effectively solve the problem and reduce the operation cost.
Keywords:Integrated Electricity-Heat Energy System, Optimal Dispatch, Deep Reinforcement Learning, Soft Actor-Critic
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
在能源互联网的背景下 [
电–热综合能源系统通过利用热力与电力的互补特性,有利于促进可再生能源消纳,提高能源利用率 [
强化学习的自主学习特性适用于决策问题求解。现已有研究将强化学习应用在电力能源系统的经济调度 [
本文主要研究基于SAC的电–热综合能源系统协调优化,首先建立电–热综合能源系统优化调度模型,进一步搭建基于SAC框架的电–热综合能源系统优化调度模型,最后通过算例仿真验证该算法求解有效性。
本文将电–热综合能源系统分电力、热力系统和耦合装置这三部分进行建模研究。
本文以交流潮流作为电力系统的分析方法,电力系统的功率平衡方程表示为:
{ P i = V i ∑ j ∈ i V j ( G i j cos θ i j + B i j sin θ i j ) Q i = V i ∑ j ∈ i V j ( G i j sin θ i j − B i j cos θ i j ) ∀ i ∈ Γ E N o d e (1)
式中 P i , Q i 分别为节点i的注入有功、无功功率, V i 为节点i的电压幅值, G i j 、 B i j 分别为支路ij的电导和电纳, θ i j 为支路ij的相角差。
区域热力系统采用集中供热方式进行供暖,图1表示热力系统简易示意图。
图1. 供热网示意图
热力系统在热源处产生热能,通过送水管道输送到热负荷,经热负荷降温后通过回水管道回流,形成闭合回路。热力系统分为水力模型和热力模型两部分 [
1) 水力模型。热力系统的水力模型表示介质流动,由流量连续性方程,回路压力方程和压头损失方程构成。
{ A m ˙ = m ˙ q B h f = 0 h f = K m ˙ | m ˙ | (2)
式中,A为节点–支路关联矩阵,B为回路–支路关联矩阵。 m ˙ 为管道质量流量速率, m ˙ q 表示节点注入流量, h f 表示压头损失,K为管道的阻尼系数。
2) 热力模型。热力模型表示能量传输过程,由节点功率方程,管道温度下降方程和节点介质混合方程构成。
{ H i = C p m q , i ( T s , i − T o , i ) T j ( i j ) = ( T i ( i j ) − T e ) e − λ L i j C p m i j + T e ( ∑ k = 1 n m j k ) T j ( j k ) = ∑ i = 1 n ( m i j T j ( i j ) ) (3)
式中, H i 为节点i的注入热功率, C p 为水的比热容, T s , i 、 T o , i 为节点i的送热管道水温和出口水温, T j ( i j ) 下标ij表示以i、j为首末端节点的热网管道支路, T i ( i j ) , T j ( i j ) 为该支路的i、j端温度, T e 表示外界环境温度。
本文热电联产机组采用抽凝式机组,运行点在多边形区域内,其产电产热功率可用式(4)表示:
min { P i , min c h p − α 3 H i , t c h p , α 1 + α 2 H i c h p } ≤ P i , t c h p ≤ P i , max c h p − α 3 H i , t c h p ∀ i ∈ Γ c h p , t ∈ T (4)
式中, P i , t c h p , H i , t c h p 分别为时段t,第i台抽凝机组电出力和热出力; P i , max c h p , P i , min c h p 分别为电出力上下限; α 1 , α 2 , α 3 为多边形区域表示系数,在给定热电联产装置下为常数。
本文以实现电–热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项:
min F = f 1 + f 2 + f 3 (5)
式中, f 1 为常规机组运行成本, f 2 为热电联产装置运行成本, f 3 为弃风惩罚。
1) 常规机组运行成本
f 1 = ∑ t = 1 T ( ∑ i = 1 N G ( b 0 + b 1 P t , i G + b 2 ( P t , i G ) 2 ) ) Δ t (6)
式中, P t , i G 为常规机组发电功率, b 0 , b 1 , b 2 为常规机组能耗系数, N G 为常规机组的数量。T为调度周期, Δ t 为调度时间间隔。
2) 热电联产机组运行成本
f 2 = ∑ t = 1 T ( ∑ i = 1 N c h p ( a 0 + a 1 ( P t , i c h p ) 2 + a 2 P t , i c h p + a 3 ( H t , i c h p ) 2 + a 4 H t , i c h p + a 5 P t , i c h p H t , i c h p ) ) Δ t (7)
式中, P i , t c h p , H i , t c h p 分别为在时段t,节点i所连热电联产装置发电功率和产热功率; a 0 , a 1 , a 2 , a 3 , a 4 , a 5 为热电联产装置能耗系数, N c h p 为热电联产的数量。
3) 弃风惩罚
f 3 = k ∑ t = 1 T ∑ i = 1 N w ( P t , i w , p r e − P t , i w ) Δ t (8)
式中, P i , t w 表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
1) 节点功率平衡等式约束条件
式(9)、(10)表示网络节点有功功率平衡方程。
P i , t G + P i , t c h p + P i , t w − P i , t l o a d = P i , t ∀ i ∈ Γ E N o d e , t ∈ T (9)
H i , t c h p − H i , t l o a d = H i , t ∀ i ∈ Γ H N o d e , t ∈ T (10)
式中, Γ E N o d e 、 Γ H N o d e 为电力系统、热力系统节点集合,T为调度时段。 P i , t l o a d 、 H i , t l o a d 分别为时段t,节点i的电负荷和热负荷功率。
2) 网络安全约束
为实现电–热综合能源系统安全可靠运行,系统应满足式(11)~式(13)的网络约束。
V i , min ≤ V i ≤ V i , max ∀ i ∈ Γ E N o d e (11)
T s j , min ≤ T s j ≤ T s j , max ∀ i ∈ Γ H N o d e (12)
m k , min ≤ m k ≤ m k , max ∀ k ∈ Γ H p i p e (13)
式中: V i , max , V i , min 分别为节点i电压幅值的上限和下限; T s j 为流入热网节点j的热水温度, T s j , max , T s j , min 为供水温度上、下限; m j k 为热水管道k的质量流量速率, m k , max , m k , min 分别为其上、下限。
4) 热电联产装置约束
热电联产机组应满足爬坡约束:
− r a m p d o w n c h p ≤ P i , t c h p − P i , t − 1 c h p ≤ r a m p u p c h p ∀ i ∈ Γ c h p , t ∈ T (14)
式中: P i , t c h p , P i , t − 1 c h p 分别为前后两个时段的热电联产发电功率, r a m p u p c h p , r a m p d o w n c h p 分别为热电联产装置爬坡速率上下限。
5) 可再生能源约束
0 ≤ P i , t w ≤ P max w ∀ i ∈ Γ w , t ∈ T (15)
式中, P i , t w 表示时段t,风机i发电功率, P max w 为其最大出力值。
6) 常规机组出力约束
P i , min G ≤ P i G ≤ P i , max G ∀ i ∈ Γ E G (16)
同时满足爬坡约束:
− r a m p d o w n G ≤ P i , t G − P i , t − 1 G ≤ r a m p u p G ∀ i ∈ Γ G , t ∈ T (17)
式中: P i , max G , P i , min G 分别为机组出力上、下限, r a m p u p G , r a m p d o w n G 分为为机组爬坡速率上、下限。
标准强化学习自主训练以实现长期奖励最大化,SAC在标准的强化学习优化目标基础上扩充了最大熵目标,最优策略还旨在最大化各个观测状态下的信息熵 [
J ( π ) = ∑ t = 0 T E ( s t , a t ) ∼ ρ π [ r ( s t , a t ) + α t Η ( π ( ⋅ | s t ) ) ] (18)
其中 Η ( π ( ⋅ | s t ) ) 为信息熵项, α t 为温度系数。
在优化目标中增加最大熵鼓励探索过程,提升学习速度。温度系数采用最小化式(19)进行自动调整:
J ( α t ) = E a t ∼ π t [ − α t log π t ( a t | s t ; a t ) − α t Η ] (19)
SAC是基于Actor-Critic框架的深度强化学习算法,由策略网络和价值网络构成,其中价值网络用两个结构相同的神经网络近似软Q值,训练软Q函数参数以最小化软贝尔曼残差:
J Q ( θ ) = E ( s t , a t ) ∼ D [ 1 2 ( Q θ ( s t , a t ) − ( r ( s t , a t ) + γ E s t + 1 ∼ p [ V θ ¯ ( s t + 1 ) ] ) ) 2 ] (20)
并通过独立梯度去优化两个网络:
∇ ^ θ J Q ( θ ) = ∇ θ Q θ ( s t , a t ) ⋅ ( Q θ ( s t , a t ) − ( r ( s t , a t ) + γ ( Q θ ¯ ( s t + 1 , a t + 1 ) − α log ( π ϕ ( a t + 1 | s t + 1 ) ) ) ) ) (21)
策略网络输出为高斯分布的均值和标准差,在进行策略网络的参数更新时,使用Q值更小的网络来作为critic网络减少偏差。参数更新近似梯度为:
∇ ^ ϕ J π ( ϕ ) = ∇ ϕ α log ( π ϕ ( a t | s t ) ) + ( ∇ a t α log ( π ϕ ( a t | s t ) ) − ∇ a t Q ( s t , a t ) ) ∇ ϕ f ϕ ( ε t ; s t ) (22)
根据强化学习环境,状态,动作,奖励这4个基本要素,结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型。
1) 动作空间。将所研究系统的控制变量常规机组发电功率,热电联产发电功率以及热电联产热功率作为动作变量,如下所示。
A = { P i G , H i c h p , P i c h p } (23)
2) 状态空间。所研究系统的状态变量电负荷,风力发电功率,热电联产装置发电功率,常规机组出力,热负荷,热电联产装置产热功率以及环境温度构成状态空间:
S E = { P i G , P l o a d , P w , P i c h p , H l o a d , H i c h p , T e } (24)
3) 环境。以文献 [
4) 奖励函数。强化学习目标为实现长期奖励最大化,则将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数。惩罚项统一表达形式为式(25)
ϕ v = β v ⋅ [ ( v − v max ) f ( v max − v ) + ( v min − v ) f ( v − v min ) ] (25)
f ( x ) = { 0 x ≥ 0 1 x < 0 (26)
式中, β v 为惩罚系数,根据不同的越限惩罚设置相应的常数系数。以常规机组出力越限惩罚式(16)为例,设置惩罚项式(27),为使训练过程中机组出力不越限,设置较大的正惩罚系数值,当机组出力越限时,将引入惩罚,造成奖励函数值大幅降低。约束条件(11)~(17)处理过程类似,不再赘述。
ϕ P G = β P G ⋅ [ ( P i G − P i , max G ) f ( P i , max G − P i G ) + ( P i , min G − P i G ) f ( P i G − P i , min G ) ] (27)
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚。
r t = − ( f 1 + f 2 + f 3 + ϕ P G + ϕ P G t − G t − 1 + ϕ V + ϕ P c h p + ϕ P c h p t − c h p t − 1 + ϕ T + ϕ m ) (28)
式中 f 1 、 f 2 、 f 3 分别为电力系统、热力系统运行成本以及弃风惩罚。 ϕ P G , ϕ P G t − G t − 1 分别为常规机组出力越限及爬坡越限惩罚项, ϕ V 为系统节点电压越限惩罚。 ϕ P c h p 、 ϕ P c h p t − c h p t − 1 为热电联产机组出力及爬坡越限惩罚项, ϕ T 为系统节点温度越限惩罚, ϕ m 为系统管道质量流量速率越限惩罚。
本文采用如图2所示电–热综合能源系统进行算例分析 [
SAC策略神经网络和价值神经网络均包括两层隐藏层,结构示意图如图3和图4所示,神经元数目为256,策略网络激活函数设置为线性整流函数,反向传播学习率为0.0003,价值网络激活函数设置为带泄露线性整流函数,学习率为0.0003,温度系数初值为0.01,自更新学习率设置为0.0001,对于上述网络系数更新算法均采用交替乘子法。经验回放单元容量为50000,采样样本量设置为128。
图2. 电–热综合能源系统图
图3. 策略神经网络结构示意图
图4. 价值神经网络结构示意图
1) 奖励函数曲线
针对上述算例模型,采用SAC算法进行自学习训练,最终得到的奖励函数曲线及与DDPG算法对比如图5所示,有无熵正则情况下的对比如图6所示:
图5. SAC与DDPG算法对比
图6. 有无熵正则项对比
从图中可以看出,经过10,000轮训练之后奖励曲线收敛,和采用确定性策略梯度算法以及去掉熵正则项得到的计算结果相比,SAC更快达到收敛,并且收敛到较大的奖励值。这是由于SAC将最大信息熵加入到目标函数中,当对动作进行采样时,概率较小的动作可能能够获得更大的Q值,从而鼓励智能体对动作空间进行探索,从不同的方式探索各种最优的可能性,面对干扰时能够更容易做出调整,具有更强的探索能力,能够避免过快陷入局部最优解的困境。同时,与DDPG算法相比较,SAC训练过程稳定性更高,DDPG算法收敛过程存在较大波动,导致训练过程中部分结果超出可行域范围,使得奖励值大幅降低,而SAC收敛过程中无明显波动。
2) 调度结果分析
在网络训练完成之后,可利用策略网络进行调度控制策略的生成。本文采用SAC计算得到的电-热综合能源系统调度结果如图7、图8所示,
图7. 电力系统出力结果
图8. 热力系统出力结果
图7表示各个机组发电量,可以看到,在负荷需求较小的时段内,如图中时刻1,两台成本较高的发电机均以最小出力运行。在常规机组满足最小出力的情况下,负荷需求主要由成本较小的热电联产装置和风力发电机组承担。由于弃风成本的存在,风电始终满足最大消纳;热电联产装置发电成本较常规机组低,因此往往会承担更多负荷,但因为热电联产机组同时进行电能和热能的供应,其发电出力也在一定程度上受到热负荷的限制。白天时段内随着用电负荷上升和风电出力的降低,成本较低的常规机组2优先增加出力。从图8中可以看出,在热负荷的供应过程中,热力系统优先提高成本较低的热电联产机组2的出力。从图7及图8的计算结果可以看出,SAC算法能够针对电–热综合能源系统优化问题给出正确的调度结果。
3) 对比分析
为进一步验证本文SAC算法的有效性,并验证本文所提方法相较于传统方法的优越性,将本文基于SAC的电–热综合能源系统优化算法、粒子群算法(PSO)以及DDPG算法应用于前述算例,对该电-热综合能源系统进行优化求解,并将优化后的运行成本进行比较,如表1所示。
从优化结果可以看出,SAC算法具备最好的寻优能力,采用SAC算法的得到调度成本最优,小于采用PSO方法得到的计算结果。同时训练好的强化学习模型不需要迭代寻优,只需计算策略神经网络的前向过程。因而其策略神经网络可根据给定的输入,在秒级内给出调度策略,远小于本文测试所用的粒子群算法的296 s计算时间,满足实际工程应用的需求。与DDPG算法相比则可以看出,在引入最大熵等改进措施之后,SAC算法具有更好的探索能力,不易收敛到局部最优解,因此SAC算法得到的计算结果优于采用DDPG算法得到的计算结果。综上所述,本文所提出基于SAC的电热综合能源系统优化调度方法计算性能优于传统算法。
算法 | 成本 |
---|---|
SAC | 237,870 |
PSO | 237,900 |
DDPG | 239,165 |
表1. 不同算法优化结果对比
本文提出了一种基于SAC算法的电–热综合能源系统经济调度方法,该算法采用连续控制策略,避免了离散化带来的高维求解困难问题,同时将最大熵添加到优化目标中,探索各种最优可能性。将本文所提算法与粒子群算法进行对比,验证了本文所提方法的有效性,另外也对两种深度强化学习学习奖励曲线和损失函数曲线进行对比,表明SAC算法在解决电–热综合能源系统的优化调度问题中探索能力更强,收敛稳定性更好,更适用于电–热综合能源系统的经济调度问题。
电力物联网关键技术(2020YFB0905900)。
刘 雨,董 雷,王春斐,李梦婷,乔 骥,王新迎. 基于柔性行动器–评判器的电–热综合能源系统协调优化Coordinated Optimization of Integrated Electricity-Heat Energy System Based on Soft Actor-Critic[J]. 智能电网, 2021, 11(02): 107-117. https://doi.org/10.12677/SG.2021.112011