买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广西大学
摘要:本发明提出一种计及样本短缺的100%新能源电力系统的发电调控方法,将零样本分类方法、嵌入基于用户基线负荷估算模型的Transformer的深度强化学习方法和少样本学习方法相结合,用以对100%新能源电力系统的频率调控。首先,所提零样本分类方法用来判定100%新能源电力系统频率偏差样本是否为已训练样本,根据已学习样本计数结果将频率偏差样本池归类为大样本数据和少样本数据。其次,所提嵌入基于用户基线负荷估算模型的Transformer的深度强化学习方法用于大样本数据情况的频率控制。再次,利用所提的少样本学习方法用于少样本数据情况的频率控制。本发明能对100%新能源电力系统中大样本和少样本情况进行综合控制,提高样本利用率,优化电力系统的调控方式,提高发电控制精度。
主权项:1.一种计及样本短缺的100%新能源电力系统的发电调控方法,其特征在于,将零样本学习、少样本学习和嵌入基于用户基线负荷估算模型的Transformer的深度强化学习方法进行结合,用于100%新能源电力系统的发电控制,能提高样本数据的利用率,并提高对100%新能源电力系统的发电控制精度,满足100%新能源电力系统在样本短缺场景下的发电控制要求;所提发电调控方法在使用过程中的步骤为:步骤1:获取100%新能源电力系统在第i个固定时间段内的一维频率偏差时间序列,该时间序列用向量Δfi表示,其中i=1,2,3,…,n,其中n代表第n个固定时间段内的一维频率偏差时间序列的序号;已学习样本时间序列计数器Nlearnt被初始化为0;步骤2:将获取到的连续n个固定时间段的频率偏差时间序列存入频率偏差样本池,将频率偏差样本池定义为矩阵ΔF={Δf1,Δf2,Δf3,…,Δfn},其中表示第n个固定时间段内100%新能源电力系统的频率偏差时间序列,Δf1表示第1个固定时间段内100%新能源电力系统的频率偏差时间序列,Δf2表示第2个固定时间段内100%新能源电力系统的频率偏差时间序列,Δf3表示第3个固定时间段内100%新能源电力系统的频率偏差时间序列,Δfn1是第n个频率偏差序列在时间点1处的值,Δfn2是第n个频率偏差序列在时间点2处的值,Δfn3是第n个频率偏差序列在时间点3处的值,ΔfnT是第n个频率偏差时间序列在时间点T处的值,Tn是固定时间段的长度;步骤3:利用基于直接属性预测的零样本学习方法判定频率偏差样本池中的每一个频率偏差时间序列是否为已学习的数据样本,然后更新已学习样本时间序列计数器的值:参与零样本分类时序样本个数为Nzero,数据样本分为2类:已学习过的数据样本和从未学习的数据样本;训练样本ai和训练样本aj之间的相关性为: 其中,时间序列向量Δfi=ai,时间序列向量Δfj=aj,和分别为训练样本ai与aj的均值,ain为第i训练样本的第n个属性,ajn为第j训练样本的第n个属性,当为正值,训练样本ai和训练样本aj之间呈现正相关;当为负值,训练样本ai和aj之间呈现负相关;当训练样本ai和aj之间无关;样本特征空间为xs,Y={y1,y2}为训练类,Z={z1,z2}为与Y不相交的测试类,y1和z1表示已学习样本类别,y2和z2表示从未学习过的样本类别,类Y和类Z共享Mzero个二值类别属性矩阵矩阵表示类别-属性矩阵,Mzero为属性个数,如果第j类具有第m个属性,则Ajm=1,否则Ajm=0;a1、am和分别为第1、m和Mzero个训练样本;在训练阶段,对训练类的每一个训练样本xs和其训练样本进行训练,训练样本的后验概率服从阶乘分布,由后验概率pam|xs得到特征与训练样本之间的关系;pam|xs被计算为: 在测试阶段,每个目标类z存在确定的训练样本向量az,由贝叶斯规则得到训练样本与类之间的关系pz|a为: 根据特征与训练样本和训练样本与类之间的关系得到特征与测试类之间的后验概率pz|xs为: 根据最大后验概率fxs把测试样本xs分配到z1,z2两个类别中,最大后验概率fxs为: 其中,z1与z2已分别存储已学习过的数据样本和从未学习的数据样本,为获取已学习过的数据样本数量,对属于z1类的频率偏差时间序列样本计数,将计数结果存入已学习样本计数器Nlearnt;步骤4:当已学习样本计数器Nlearnt小于20时,频率偏差样本池为小样本数据;采用少样本学习方法对100%新能源电力系统机组有功出力进行预测,以预测的结果作为电力系统的发电控制指令;将频率偏差样本池ΔF作为少样本学习支持集S,即Nfew为支持集中频率偏差时序样本的数量;在给定查询时间序列的下一个时间步,少样本学习预测函数能输出100%新能源电力系统机组有功出力的预测值矩阵ΔPT+1,少样本学习预测函数输出支持集中同一任务中的100%新能源电力系统机组有功出力时间序列向量表示机组在时刻1的有功出力向量,表示机组在时刻2的有功出力向量,表示机组在时刻3的有功出力向量,表示机组在时刻T的有功出力向量,机组有功出力向量的维度由参与分布式发点调控的发电机组数量决定;采用少样本学习方法对100%新能源电力系统机组有功出力进行预测的步骤为:步骤4.1:利用双向长短期记忆网络,以隐藏状态的形式获得支持集S中每个时间序列的每个时间步的表示,为: 其中,和分别是前向和后向长短期记忆网络;和分别为前向和后向长短期记忆网络在时间步t的第n个支持时间序列的隐藏状态;步骤4.2:包含时间步t之前的时间序列信息,包含时间步t之后的时间序列信息,使用前向和后向隐藏状态的并集向量表示时间步t的第n个时间序列,其中[·,·]表示向量的连接;双向长短期记忆网络能编码过去的和未来的信息进入hnt,并且能处理不同长度的时间序列;步骤4.3:利用长短期记忆网络f获得100%新能源电力系统发电机组有功输出时间序列为: 其中,是在时间步t的隐藏状态,使用隐藏状态的上一个T时间步的隐藏状态作为查询的表示形式z:=zT,“:=”表示“定义为”;步骤4.4:利用注意力机制从支持集S中提取对预测有用的知识,注意力机制输出Attentionfew为: 其中,为查询线性投影矩阵,为键线性投影矩阵,为值线性投影矩阵;当存在与查询具有局部相似模式的支持时间序列时,关注机制会检索在Vhnt处的信息,相似性由线性变换后的支持表示Khnt和线性变换后的查询表示Qz之间的内积计算得出;注意力机制能检测到提高预测性能的信息;T表示矩阵转置;步骤4.5:利用注意力机制输出Attentionfew和查询表示z预测下一个时间步t+1的值,预测下一个时间步t+1的值的过程为: 其中,g为前馈神经网络,Φ为双向长短期记忆网络、长短期记忆网络f、前馈神经网络g、注意力机制中的线性投影矩阵Q,K和V的参数;通过在神经网络的输入中加入查询表示z,即使支持集中没有有用的信息,也能利用过去的值Δp*进行预测;步骤4.6:在训练阶段,在给定机组发电任务|D|中能得出一组一维时间序列ΔF={ΔFd}d∈D,其中是机组发电任务d中的时间序列集合,是机组发电任务d中的第n个时间序列,是时间步t的连续标量值,Tdn是时间步的长度,Nd是任务d中的时间序列数;步骤4.7:利用偶发训练框架,从训练数据集ΔF中随机生成支持集和查询集模拟目标任务,通过最小化给定支持集的查询集上的预期损失估计模型参数中的参数Φ的过程为: 其中,代表期望值;LS,Q;Φ是给定支持集S的查询集Q中下一时间点预测值的均方误差,该均方误差为: 其中,NQ为查询集中的实例数,Tn是查询集中第n个时间序列的长度,Δfn,:t-1=[Δfn1,...,Δfn,t-1]为直到时刻t-1的100%新能源电力系统的频率偏差时间序列;步骤4.8:迭代过程中,从随机选择的任务中随机生成支持集和查询集,给定支持集和查询集后,计算损失,并使用随机梯度下降法更新模型参数;步骤4.9:在测试阶段,在新任务中得到一些时间序列作为支持集,然后得到一个根据任务d*中的100%新能源电力系统发电机组有功输出时间序列步骤5:当已学习样本计数器Nlearnt大于或等于20时,频率偏差样本池为大样本数据,采用嵌入基于用户基线负荷估算模型的Transformer的深度强化学习方法对100%新能源电力系统的频率进行调控,步骤为:步骤5.1:将基于用户基线负荷估算模型的Transformer的深度强化学习的调控过程描述为马尔科夫决策过程,具有稳定性,获取100%新能源电力系统的当前频率偏差状态ΔF={Δf1,Δf2,Δf3,…,Δfn}作为输入矩阵,设置迭代总次数为Kiteration;步骤5.2:通过一种约束感知和排序提取的标记剪枝方法将原始频率偏差时间序列中不必要的标记删除,使模型在保持准确性的同时提高在线推理速度,步骤如下:步骤5.2.1:一个Transformer层包裹着一个多头自注意力层和前馈层,具有残差连接和层归一化;给定序列中的元素数目为n和隐藏大小d,设第j层的隐藏状态Xj=x1,x2,…,xn∈Rn×d,多头注意力下的第j层的隐藏状态Xj为:Xj=LNLNXj-1+MHAXj-1+FFNLNXj-1+MHAXj-113其中,x1=Δf1为第j层的第1个令牌,x2=Δf2为第j层的第2个令牌,xn=Δfn为第j层的第n个令牌;其中,MHA为多头注意力层,FFN为前馈层,LN函数作用为层归一化;步骤5.2.2:自注意力机制状态Attentionh为: 其中,Xq为自注意力查询输入矩阵,是自注意力查询矩阵,Xk为自注意力键输入矩阵,是自注意力键矩阵,Xv为自注意力值输入矩阵,为自注意力值矩阵;softmax函数为将每个元素映射为一个介于0和1之间的值的归一化函数;步骤5.2.3:为解决多头注意力层在应用长序列时,计算复杂度Od2n+n2d随序列中的元素数目n以二次关系增长导致运算成本快速上升的问题,引入令牌修剪,即随着推理的进行,不重要的令牌逐渐被丢弃,O表示方法的时间复杂度;对于每个Transformer层,最初具有n个令牌,目标是从中删除特定数量的不重要的令牌,被删除特定数量的不重要的令牌将不会在后续层中被考虑,降低运算成本,从而使模型推理与未进行令牌修剪的模型相比明显更快;步骤5.2.4:利用排名感知的令牌提取,解决基于关注值的令牌重要性排名存在的对长距离依赖的建模能力弱的问题,基于注意力值的方法定义l层中的令牌xj的重要性分数slxj为: 其中,Nh表示多头注意力的头的数量,h表示多头注意力头的索引,取值范围为[1,Nh];xj为l层中第j个令牌,xk为第l层中第k个的令牌,Ahlxj,xk表示令牌xk从令牌xj在头h上获得的注意力值;步骤5.2.5:对于给定的部署约束,选择Transformer层的最佳子集,并通过L0正则化来优化Transformer层的最佳子集层内的令牌修剪决策:步骤5.2.5.1:引入一组二进制决策门掩码来表示稀疏率,并用表示丢弃令牌,用表示保留令牌,i是层索引;使用二进制决策门掩码构造约束感知损失函数;使用L0正则化方法优化约束感知损失,在自注意力机制之后,不重要的令牌被移除;步骤5.2.5.2:给定的输入序列Xi-1=x1,x2,…,xn用于第i层,根据令牌重要性分数对第i层的输入序列进行排序,得到的排名为n,3,…,1;然后将相应的排序掩码定义为代表第i层的第n个分级令牌的排名,代表第i层的第3个分级令牌的排名,代表第i层的第1个分级令牌的排名;步骤5.2.5.3:二进制决策门掩码提供决策,优先考虑深层的学习掩码,用于早期层中删减少数的令牌;标记的重要性能通过自注意力值来预测;步骤5.2.5.4:令牌修剪后的预期模型每秒浮点运算数能通过二进制决策门掩码计算,修剪后的预期模型每秒浮点运算数为: 其中,用于计算多头注意力层的每秒浮点运算数;用于计算前馈层的每秒浮点运算数,求和符号Σ的上标L表示每一层的注意力计算次数,·为乘法符号,Nh是多头注意力层中的头的数量,d0表示前馈层中间大小,Ti表示第i层保留的令牌数;Ti通过将排序掩码时的实体覆盖得分E乘以序列中的元素数目n计算,实体覆盖是一种用于衡量文本中实体覆盖程度的指标,用来评估模型对于给定任务中关键实体的抽取能力,实体覆盖得分E通过模型抽取的正确实体数目与参考答案中的实体数目之间的比例计算;步骤5.2.5.5:引入惩罚来施加等式约束cM=C,惩罚的损失函数LregM为:LregM=l1cM-C+l2CM-C217其中,剪枝掩码M由L0正则化可导分布函数参数α和u确定,α和u均为L0正则化可导分布函数的数学期望和标准差参数,cM表示对剪枝掩码M的约束函数,l1为惩罚的损失函数的一次项cM-C的负常数系数,l2为惩罚的损失函数的二次项cM-C2的负常数系数;步骤5.2.5.6:在给定的每秒浮点运算数约束条件下确定二进制决策门掩码和排序掩码的值,使精度损失最小,通过添加正则化项,将令牌修剪任务形式化为端到端学习问题,损失函数Lt为:Lt=Ldownstreamθ,M+λLregM18其中,Ldownstreamθ,M是下降蒸馏损失函数,θ表示原始模型,M表示所有剪枝掩码,λ表示控制正则化程度的超参数;λ的取值越大,对模型复杂度的惩罚越严厉,模型的权重参数会越趋向于小的数值,从而限制模型的复杂性,减少过拟合的风险;相反,λ的取值越小,对模型复杂度的惩罚越轻,模型能灵活地拟合训练数据,但容易发生过拟合;步骤5.2.5.7:在标准L0重新参数化后,使用L0正则化可导分布函数调节剪枝掩码M: 其中,u~U0,1是区间[0,1]中的均匀分布,sigmoidx函数用以对x变换为e为自然常数;log函数是取底数为自然常数e的对数函数;l0和r0是将sigmoid输出延伸到区间l,r的两个常数,β是控制sigmoid函数陡度的超参数,min为取最小值函数,max为取最大值函数,剪枝掩码M=0时丢弃令牌,剪枝掩码M=1时保留令牌;步骤5.2.5.8:进行令牌重要性排名提炼,将蒸馏损失Ldistill定义为: 其中,求和符号Σ上标LM=1表示输入序列中被保留的重要令牌的数量,R表示通过对教师模型中的最后一层的每个令牌的重要性分数进行排序而获得排名,Si表示学生模型的第i层的令牌重要性分数,X表示训练数据的小批量;将前13层设置为蒸馏的早期层;LambdaLoss函数为用于排序度量优化的损失函数;步骤5.2.5.9:完整的训练目标函数为:Lt=Ldownstreamθ,M+LregM+λLdistill21步骤5.3:将剪枝后的频率偏差时间序列转换为频率偏差时间比序列,转换过程如下:Lt+1=Ratiot+1·Lt=fx,t·Lt=f1x,t+f2x,t·Lt22其中,Lt+1表示时间t+1处的频率偏差,Lt表示时间t处的频率偏差;Ratiot+1表示t+1处的频率偏差时间比;f1x,t是无量纲趋势,是指频率偏差时间比随着某个参数的变化而呈现的整体趋势,通过将频率偏差时间比除以某个基准值或参考量,能消除该参数的影响,得到的比值反映频率偏差时间比的相对大小,从而抓住频率偏差时间比的整体走势,能描述系统的性能或行为特征;f2x,t是局部波动,局部波动是指频率偏差时间比在无量纲趋势上的小幅度波动或起伏,局部波动的存在能提供有关频率偏差时间比在特定条件下的细节信息;步骤5.4:通过注意力函数计算查询和关键向量之间的点积作为注意力分数,基于用户基线负荷预测模型的Transformer使用的缩放点积注意力AttentionQ0,K0,V0为: 其中,Q0是查询向量;K0是键向量;V0是值向量;Q0、K0和V0通过对原始输入进行线性变换获得;DK表示键的尺寸,A为注意力矩阵,能可视化特征之间的关系;步骤5.5:定义多头注意力,多头注意力MultiHeadAttnQ0,K0,V0为:MultiHeadAttnQ0,K0,V0=Conacthead1,...,headHWO24其中,Concat函数将多个张量按照指定的维度进行连接,和分别是查询参数矩阵、键参数矩阵和值参数矩阵,分别为将Q0、K0和V0投影到不同的表示子空间;head1为多头注意力机制中的第一个注意力头,headH是多头注意力机制的第H个注意力头,headi是多头注意力机制的第i个头,H为多头注意力的头数;WO为多头注意力权重;Attention,用于计算缩放点积注意力;步骤5.6:搭建演员网络:在Transformer中,演员网络使用解码器层来生成动作序列;将状态表示作为解码器的输入,并通过多个解码器层逐步生成动作;搭建评论家网络:在Transformer中,评论家网络使用编码器层来生成状态值函数的估计,然后,将状态和动作的序列作为编码器的输入,并使用编码器层对整个序列进行编码,通过全连接层操作将编码器的输出映射到状态值函数的估计;步骤5.7:使用近端策略优化方法求解模型;在每个训练周期中,与环境交互,收集状态、动作、奖励值和优势估计的序列;然后计算策略损失和值函数损失,并更新演员和评论家网络的参数,步骤为:步骤5.7.1:策略梯度方法的工作原理是计算策略梯度的估计器;所用梯度估计器gest为: 其中,Eest用于计算当前梯度的估计和历史梯度估计的加权平均值,是表示对参数θ的梯度操作,θ是Transformer模型的权重参数;πθat|st为随机策略参数向量,at是t时刻的动作,即深度强化学习给出的100%新能源电力系统电源的发电控制指令;st是t时刻的状态,即100%新能源电力系统的当前频率偏差状态;Aest为时间步长t处优势函数的估计值,表示在采样和优化交替进行的方法中,有限批次样本的经验平均值;使用自动微分软件通过构造目标函数来工作,该目标函数的梯度是策略梯度估计器;通过对目标函数进行微分来获得估计量gest,目标函数LPGθ为:LPGθ=Eestlogπθat|stAest26步骤5.7.2:目标在策略更新大小的约束下被最大化,最大化过程目的是找到使目标函数达到最大值的最优参数取值,最大化过程为: 其中,代表最大化过程,该最大化过程的约束条件为θoldat|st是更新前的策略参数向量,表示在状态st下的所有动作对应的更新前的策略参数向量,πθ·|st表示在状态st下的所有动作对应的随机策略参数向量,δ代表当前策略和旧策略对应状态下采取动作的优势值之间的差异;步骤5.7.3:在对目标进行线性近似和对约束进行二次近似之后,惩罚解决无约束的优化问题能使用共轭梯度方法进行近似求解;使用惩罚解决无约束的优化问题,惩罚值计算过程为: 其中,KL即库尔巴克-莱布勒散度,系数β即目标在计算状态上的最大库尔巴克-莱布勒散度对策略的性能形成的一个下限,使用惩罚代替约束,解决无约束优化问题;步骤5.7.4:令rtθ表示概率比信任区域策略优化最大化一个替代目标LCPIθ为: LCLIPθ=EestminrtθAest,cliprtθ,1-ε,1+εAest30其中,ε是一个超参数,第二项cliprtθ,1-ε,1+εAest表示通过剪切概率比修改替代目标;步骤5.7.5:使用指使用小批量样本进行随机梯度下降优化若干个完整迭代周期,优化库尔巴克-莱布勒散度惩罚目标函数LKLPENθ为: 步骤5.7.6:优势估计值与优势目标值之间的差异g为: 其中,当ggtarg时,β=β2;当ggtarg时β=β×2,更新后的β用于下一次策略更新;gtarg表示优势目标值;步骤5.7.7:得到以下目标函数即每次迭代最大化: 其中,c1和c2分别为平方误差损失和熵系数,S[πθ]st指在特定策略πθ下状态st的熵值;是平方误差损失Vθst-Vttarg2,Vθst是是使用参数θ表示的值函数,用于估计当前状态st的优势值,Vttarg是目标值函数;步骤5.7.8:策略被运行T0个时间步长,其中,T0远小于事件长度,并使用收集的样本进行更新,需要一个不会超越时间步长T0的优势估计器,使用的优势估计器Aest是: 其中,Vst是指对状态st进行值函数估计的值,st是t时刻的控制器的状态;是指对状态进行值函数估计的值,是时间T0处控制器状态,rt表示时间t处的即时奖励值,rt+1表示时间t+1处的即时奖励值,表示时间T0-1处的即时奖励值,即时奖励值由环境提供,用于计算优势估计器;T0-t+1是γ的指数,T0-t为γ的指数;γ为折扣因子,取值范围为[0,1],γ决定对未来奖励的重要性程度;t指定为给定长度为T0的轨迹段内[0,T0]中的时间索引;步骤5.7.9:为能减少远期回报的影响,使优势估计关注近期的奖励信号,能通过使用广义优势估计的截断版本,当λ=1时,优势估计器Aest被简化为: 其中,δt=rt+γVst+1-Vst,st+1为时间t+1处控制器的状态;是时间T0-1处控制器的状态,是λ是用于调整长期回报和即时奖励的相对权重的参数;步骤5.8:利用演员网络来生成动作序列并利用评论家网络来评估状态值函数,以进行策略优化和决策制定任务;步骤5.9:在每次迭代中,使用N个演员网络收集T0个时间步长的数据,并构建替代损失函数;通过随机梯度下降优化Kiteration个完整迭代周期,更新演员网络参数以最小化损失;判断是否达到Kiteration次迭代,若是则生成100%新能源电力系统频率控制指令,否则继续迭代,最终目标是优化模型性能,实现分布式100%新能源电力系统频率偏差的智能调控;步骤6:100%新能源电力系统根据控制指令调整自身有功输出,进而削减100%新能源电力系统频率的偏差。
全文数据:
权利要求:
百度查询: 广西大学 一种计及样本短缺的100%新能源电力系统的发电调控方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。