首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于增强探索回退裁剪强化学习的综合能源系统调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了基于增强探索回退裁剪强化学习的综合能源系统调度方法。该方法在深度强化学习算法的理论基础上,设计了新的动作选择策略,将Actor网络输出的高斯分布的概率最大值作为动作。在记忆库中的训练样本数量溢出时根据方差剔除偏离的样本。改进了传统PPO算法训练过程中使用的损失函数,包括裁剪函数、优势函数以及策略熵部分,有效提高抽样效率与策略更新稳定性,增强了探索能力,且加快了训练期间模型的收敛速度。将训练后的模型应用在综合能源系统优化调度上,指导综合能源系统中不同子系统的出力,能有效应对可再生能源出力和负荷的波动,并通过实验证明该方法显著提高了综合能源系统优化调度的经济性和低碳性。

主权项:1.基于增强探索回退裁剪强化学习的综合能源系统调度方法,构建综合能源系统模型,用马尔可夫决策来描述综合能源系统的低碳经济调度问题,搭建Actor、Critic神经网络,初始化网络参数,其特征在于:还包括以下步骤:步骤1、根据综合能源系统的运行成本及约束,构建基于运行成本和碳成本结合的目标函数;步骤2、用马尔可夫决策来描述综合能源系统的低碳经济调度问题,搭建神经网络并进行初始化,用能源出力量PPVt、系统的电负荷需求PLoadt、系统的热负荷需求HLoadt、电价cGridt、时刻t、系统储电量SOCt、系统储热量SOTt作为智能体的状态空间st:st={PPVt,PLoadt,HLoadt,cGridt,t,SOCt,SOTt}1用CHP发电量PCHPt、SOC储电量PESSt、SOT储热量HTSSt、EB发热量HEBt、GB发热量HGBt作为智能体的动作空间at:at={PCHPt,PESSt,HTSSt,HEBt,HGBt}2设定在状态st下执行动作at获得的即时回报rt为:rt=w1rt,1+w2rt,23其中,rt,1、rt,2分别表示综合能源系统的经济成本和环境成本;将Actor网络输出的高斯分布的概率最大值作为动作at,存储训练样本st,at,rt,st+1;步骤3、建立损失函数Lθ1、Lθ2,分别用于更新Actor网络和Critic网络的参数:Lθ1=E[minψtθAt,clipFUψtθ,1-ε,1+εAt]+αHπ·|st4 其中,E代表期望,ψtθ代表新旧策略概率比,Vst表示t时刻Critic网络的输出值;At表示优势函数,clipFU表示改进的裁剪函数,α是策略熵Hπ·|st的权重系数: Hπ·|st=E[-logpat|st]8其中,γ、λ为权重参数,i表示预测时刻;Vst为t时刻Critic网络的输出值,ε为裁剪系数,β代表优势函数At的折扣系数,abs代表求绝对值;pat|st代表在状态st下选择动作at的概率;步骤4、重复步骤3,当网络的输出使目标函数值最低时,保存网络参数;使用保存的网络进行综合能源系统优化调度,根据输出的动作指导综合能源系统中不同子系统的出力。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 基于增强探索回退裁剪强化学习的综合能源系统调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。