重庆大学任洲洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆大学申请的专利一种基于柔性行动器‐评判器结合逻辑Benders分解的月度机组组合方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119720727B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411373098.5,技术领域涉及:G06F30/27;该发明授权一种基于柔性行动器‐评判器结合逻辑Benders分解的月度机组组合方法是由任洲洋;冯健冰设计研发完成,并于2024-09-29向国家知识产权局提交的专利申请。
本一种基于柔性行动器‐评判器结合逻辑Benders分解的月度机组组合方法在说明书摘要公布了:一种基于柔性行动器‑评判器结合逻辑Benders分解的月度机组组合方法,包括以下步骤:1建立月度安全约束机组组合模型;2建立时变风电预测误差概率分布;3将M‑SCUC模型分解为机组组合决策模型和松弛最优潮流模型;4建立机组组合决策主问题M1的环境和关键要素;建立机组组合决策子问题M2的目标函数和约束条件;5基于柔性行动器‑评判器深度强化学习基线算法生成机组组合决策主问题M1的机组组合决策动作;6求解机组组合决策子问题M2,并将输出结果代入机组组合决策主问题M1,利用LBD‑SAC算法求解机组组合决策主问题M1;7重复步骤5‑步骤6,直至奖励函数满足收敛要求,输出最终的机组组合决策。本发明保障系统运行的可靠性和灵活性。
本发明授权一种基于柔性行动器‐评判器结合逻辑Benders分解的月度机组组合方法在权利要求书中公布了:1.一种基于柔性行动器-评判器结合逻辑Benders分解的月度机组组合方法,其特征在于,包括以下步骤: 1建立考虑风电不确定性的月度安全约束机组组合模型,即M-SCUC模型; 2基于条件生成对抗网络,建立时变风电功率预测误差概率分布; 3利用逻辑Benders分解方法对离散变量和连续变量进行解耦,将M-SCUC模型分解为以约束马尔可夫决策过程框架表征的机组组合决策模型和松弛最优潮流模型; 所述以约束马尔可夫决策过程框架表征的机组组合决策模型如下所示: 式中,t表示时刻;T为调度周期;x表示机组组合决策变量向量;表示以约束马尔可夫决策过程框架表征的机组组合决策模型得到的固定的机组组合决策;f1t·表示机组的启动成本和停机成本;表示预期运行成本;表示以约束马尔可夫决策过程框架表征的机组组合决策模型的系数矩阵;为以约束马尔可夫决策过程框架表征的机组组合决策模型的系数向量;Nx表示机组组合决策变量向量x的维数;M1代表机组启停状态决策的机组组合决策问题; 所述松弛最优潮流模型如下所示: 式中,t表示时刻;T为调度周期;x表示机组组合决策变量向量;ζ表示风电功率预测误差向量;y表示机组输出功率向量;z表示其他状态变量;s为松弛变量向量;表示以约束马尔可夫决策过程框架表征的机组组合决策模型得到的固定的机组组合决策;表示时变风电功率预测误差概率分布;表示预期运行成本;ft·表示一定抽样预测误差内的运行成本;均表示松弛最优潮流模型的系数矩阵;为松弛最优潮流模型的系数向量;Ny、Nz、Nζ、Ns分别表示机组输出功率向量y、其他状态变量z、风电功率预测误差向量ζ、松弛变量向量s的维数;M2代表固定机组开关状态下的松弛最优潮流模型; 4基于机组组合决策模型,建立机组组合决策主问题M1的环境、状态空间、动作空间、状态转移函数、成本函数与奖励函数; 基于松弛最优潮流模型,建立机组组合决策子问题M2的目标函数和约束条件; 5以时变风电功率预测误差概率分布作为环境的不确定性,基于柔性行动器-评判器深度强化学习基线算法生成机组组合决策主问题M1的机组组合决策动作,并将机组组合决策动作作为边界条件输入至机组组合决策子问题M2; 6基于机组组合决策主问题M1的机组组合决策动作,求解机组组合决策子问题M2,并将机组组合决策子问题M2输出的松弛水平视为勘测成本代入机组组合决策主问题M1,利用LBD-SAC算法求解机组组合决策主问题M1; 所述利用LBD-SAC算法求解机组组合决策主问题M1的步骤包括: 6.1引入熵值约束和成本约束,如下所示: 式中,θ表示动作策略π的神经网络参数,表示熵阈值;t表示时刻;T为调度周期;π表示动作策略;st表示t时刻的状态;at表示t时刻的动作;χt=st,at,…,sT,aT表示时变风电功率预测误差概率分布从时刻t开始的决策轨迹;rst,at表示奖励函数;Qcst,at表示服从策略π和轨迹χt产生的累积贴现成本的期望值;表示贴现成本阈值,其中d→0;ζ表示风电功率预测误差向量;ρ|t表示时变风电功率预测误差概率分布;cπ,ρ为成本函数;γ表示贴现率; 6.2构建LBD-SAC求解模块,并初始化迭代次数k=1; 所述LBD-SAC求解模块包括CGAN模块、两个奖励价值评判网络模块、两个成本价值评判网络模块、动作网络模块; 所述CGAN模块用于生成具有时变不确定性分布的数据集; 两个奖励价值评判网络模块用于评估奖励的软Q值; 一个成本价值评判网络模块用于评估以约束马尔可夫决策过程框架表征的机组组合决策模型约束越限成本的软Q值; 一个成本价值评判网络模块用于计算松弛最优潮流模型的松弛水平; 所述动作网络模块根据当前系统的运行状态制定机组组合决策; 6.3基于距离的2-Wasserstein损失函数,计算奖励价值评判网络模块和成本价值评判网络模块的目标网络参数; 所述奖励价值评判网络模块和成本价值评判网络模块的目标网络参数如下所示: 式中,分别为奖励、代价的软Q函数;Jcμ分别为软Q函数的近似数值;均为Soft-Bellman算子;分别表示奖励价值评判网络模块、成本价值评判网络模块的目标网络参数;φ、μ分别表示奖励价值评判网络模块、成本价值评判网络模块的网络参数;是机组组合决策集合; 6.4基于APDO法建立拉格朗日函数,将熵值约束和成本约束最大化问题转化为对偶优化问题,并推导动作网络模块的损失函数; 所述拉格朗日函数如下所示: 式中,α、λ为与熵值和安全勘测成本相关的拉格朗日乘子;为拉格朗日函数;πθ为动作策略;表示熵阈值;为成本函数; 所述对偶优化问题如下所示: 式中,为最优原对偶解; 所述动作网络模块的损失函数如下所示: 式中,Jπθ为动作网络模块的损失函数; 6.5判断迭代次数k是否等于预设阈值,若否,则将此次迭代中的拉格朗日乘子存入经验池,令k=k+1,更新动作策略和拉格朗日乘子,并返回步骤6.3;若是,则在经验池中抽样选择出一个拉格朗日乘子来调整最后一次迭代的拉格朗日乘子,进入步骤6.6; 所述更新动作策略和拉格朗日乘子的计算公式如下所示: 式中,·+表示max{·,0};θk+1、θk分别表示第k+1、k次迭代过程中的神经网络参数;ω为学习率;为梯度函数;αk、λk为第k次迭代过程中的拉格朗日乘子;αk+1、λk+1为第k+1次迭代过程中的拉格朗日乘子;为第k+1次迭代过程中的动作策略; 6.6输出机组组合决策的最优解; 7重复步骤5-步骤6,直至奖励函数满足收敛要求,输出最终的机组组合决策。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400044 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励