首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的多VSG微电网协调控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京师范大学

摘要:本发明公开了一种基于深度强化学习的多VSG微电网协调控制方法,本发明方法以微电网电压稳定,频率稳定和功率均分为目标,采用了深度确定性策略梯度算法策略,构建了基于DDPG算法的微电网二次控制智能体,并对微电网离线训练和在线控制以实现目标。该方法改进了传统多VSG微电网控制的局限性,可以实现在微电网负荷突变等大扰动环境下,减少电压和频率偏差,提高微电网稳定性,同时使分布式电源功率均发,减少分布式电源功率出力不平衡造成的负担。该方法被应用到多VSG微电网中,提升了微电网的鲁棒性和动态性能。

主权项:1.基于深度强化学习的多VSG微电网协调控制方法,其特征在于,包括如下步骤:步骤S1,建立多VSG孤岛微电网模型,实现电能变换,步骤S2,建立DDPG智能体状态空间,步骤S3,建立DDPG智能体动作空间,步骤S4:建立DDPG智能体奖励函数,步骤S5:建立DDPG智能体终止函数,步骤S6;建立DDPG智能体双网络架构,步骤S7,建立DDPG智能体策略网络目标函数,步骤S8,建立DDPG智能体价值网络损失函数,步骤S9,建立DDPG智能体目标网络参数软更新机制,步骤S10,建立基于DDPG智能体二次控制的微电网协调控制策略,其中,步骤S1,建立多VSG孤岛微电网模型,具体如下:步骤S1.1,建立VSG主电路结构:分布式电源,三相DC-AC逆变电路,在逆变器出口处配备LC滤波器,消除电流中的谐波,Lf为滤波电感,Cf为滤波电容,Rf1为滤波电感的寄生电阻,Rf2为滤波电容的寄生电阻;步骤S1.2,建立VSG的控制环节:无功电压、有功频率外环,电压电流内环,PWM发生器;其控制流程为:首先采集LC滤波器端口处电压电流,计算VSG输出有功和无功,外环根据输出功率,通过控制算法生成电压环参考电压幅值和相位;然后,电压环根据电压参考值与实际值偏差经PI控制器生成电流内环电流参考值,电流内环经PI控制器生成PWM调制信号;最后经PWM控制后实现电能变换;步骤S2,建立DDPG智能体状态空间,具体如下,根据以微电网电压稳定,频率稳定和功率均分为目标,故状态空间变量选择以第i台VSG实际频率fi,实际电压有效值Ui,实际有功功率出力Pi,实际无功功率出力Oi作为智能体的观察量,建立状态空间:S=fi,Ui,Pi,Qi,步骤S3,建立DDPG智能体动作空间,具体如下:DDPG智能体作为微电网二次控制器,由于为了实现电压稳定,频率稳定和功率均分目标控制,故动作变量为每个VSG功率补偿:ΔPi=ΔPload其中ΔQi是每个VSG有功出力的变化的补偿值,ΔQload是负载变化的功率,n为分布式电源个数或VSG个数;ΔQi=ΔQload其中ΔQi是每个VSG有功出力的变化的补偿值,ΔQload是负载变化的功率,n为分布式电源个数或VSG个数;即动作空间为:a=ΔPi,ΔQi,步骤S4:建立DDPG智能体奖励函数,具体如下,步骤S4.1,每个VSG智能体频率奖励函数: 其中Δf=fN-f,fN是设定的额定频率,为50Hz,f为vsG实际频率;步骤S4.2,每个VSG智能体电压奖励函数: 其中ΔU=UN-U,UN是微电网的额定电压等级,U为VSG实际输出电压;每个智能体最终所获得的奖励函数为频率与电压奖励函数之和:R=Rf+Ru式中,Rf为频率奖励函数,Ru为电压奖励函数步骤S5:建立DDPG智能体终止函数: 当每个VSG满足条件|Δf|0.005|ΔU|UN1%时,智能体停止学习,步骤S6;建立DDPG智能体双网络架构其中,DDPG双网络架构包括以下4个网络:预测策略网络用于计算预测确定性策略,θ为预测策略网络参数;目标策略网络用于计算目标确定性策略,θ’为目标策略网络参数;预测价值网络用于计算预测动作值,ω为预测价值网络参数;目标价值网络用于计算目标动作值,ω’为目标价值网络参数;预测网络和目标网络的网络结构完全相同,预测网络的参数使用训练进行更新,目标网络不参与训练,其参数定期从预测网络复制,DDPG采用软更新的方式进行复制,步骤S7,建立DDPG智能体策略网络目标函数,具体如下:在DDPG算法中,策略网络的优化目标被定义为累积折扣奖励: 优化确定性策略函数即为最大化目标函数Jθ,即maxJθ;策略通过策略梯度迭代更新: 再利用小批量梯度上升算法Mini-BatchGradientAscent,MBGA即可实现对目标函数Jθ最大化,式中,θ1为更新的预测策略网络参数,θ0未更新的预测策略网络参数,α为小批量梯度上升算法系数,取0.05;步骤S8,建立DDPG智能体价值网络损失函数,具体如下:价值网络使用基于TD差分的平方误差作为损失函数,即 优化价值网络的过程即为最小化损失函数,即minLω;与策略网络梯度近似一样,从经验回放池中随机获得B个小批量数据即可得到的一个估计: 由于价值网络要最小化损失函数,故使用小批量梯度下降算法Mini-BatchGradientDescent,MBGD进行训练,式中:ω1为更新的预测价值参数;ω0为未新的预测价值参数,β小批量梯度下降算法系数,取0.25,步骤9,建立DDPG智能体目标网络参数软更新机制,具体如下:DDPG采用软更新方法,每次预测网络参数更新后,目标网络参数都会在一定程度上靠近预测网络;更新公式为: 其中,τ是一个远小于1的超参数,取为0.001,θ为预测策略网络参数;θ’为目标策略网络参数;ω为预测价值参数;ω’为目标价值参数,步骤S10,建立基于DDPG智能体二次控制的微电网协调控制策略,具体如下:步骤S10.1,预测策略网络从微电网环境中获取当前状态S=fi,Ui,Pi,Qi,步骤S10.2,预测策略网络根据当前状态S计算得到的动作a=ΔPi,ΔQi,并传递给环境;步骤S10.3,环境进行一个时间步的交互,并将交互数据{s,a,r,s′,is_end}传递给经验回放池;步骤S10.4,待经验回放池有经验数据后,DDPG智能体从经验回放池中随机获取一个数量为batchsize的小批量数据集作为训练数据使用;步骤S10.5,目标策略网络计算下一种状态S′的确定性动作a′,并将结果传递给目标价值网络;步骤S10.6,目标价值网络根据奖励函数R=Rf+Ru计算下一种状态-动作对s′,a′的动作值并将结果传递给预测价值网络;步骤S10.7,预测价值网络根据奖励函数R=Rf+Ru计算当前状态-动作对s,a的预测值并构造损失函数Lω,将其传递给价值优化器进行训练;步骤S10.8,价值优化器将训练好的参数ω返给预测价值网络;步骤S10.9,预测价值网络计算当前状态-动作对的动作值并传递给预测策略网络;步骤S10.10,预测策略网络构造目标函数Jθ,并传递给策略优化器进行训练;步骤S10.11,策略优化器将训练好的参数θ返给预测策略网络;步骤S10.12,预测网络将参数ω和θ传递给目标网络进行软更新,步骤S10.13,若状态S不满足终止函数is_end,则转至步骤S301进行新一轮学习;若状态S满足终止函数,则停止循环。

全文数据:

权利要求:

百度查询: 南京师范大学 基于深度强化学习的多VSG微电网协调控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。