南京南自华盾数字技术有限公司周新亚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京南自华盾数字技术有限公司申请的专利一种基于强化学习的虚拟电厂响应优化调度系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120728750B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511175585.5,技术领域涉及:H02J3/46;该发明授权一种基于强化学习的虚拟电厂响应优化调度系统及方法是由周新亚;戚明喆;陈震;黄保乐;冷程浩;赵竟;高波;李安多设计研发完成,并于2025-08-21向国家知识产权局提交的专利申请。
本一种基于强化学习的虚拟电厂响应优化调度系统及方法在说明书摘要公布了:本发明公开了一种基于强化学习的虚拟电厂响应优化调度系统及方法,涉及虚拟电厂智能调度技术领域。该系统包括环境建模模块、智能代理模块、多智能体协调模块和自适应优化模块,分别用于构建多维状态空间和分层动作空间,基于Actor‑Critic网络进行动作策略生成和优化,通过分层多智能体结构执行调度指令并实现冲突共识,结合增量学习与元学习机制动态适应状态空间变化。本发明的系统及方法具备状态建模精细、动作响应高效、策略更新自适应、智能体协同稳定等优势,能够在多源异构电力资源协同参与调度、市场规则频繁变动及负荷波动剧烈的运行环境中,保持调度策略的连续性、稳定性和最优性。
本发明授权一种基于强化学习的虚拟电厂响应优化调度系统及方法在权利要求书中公布了:1.一种基于强化学习的虚拟电厂响应优化调度系统,其特征在于,所述系统包括: 环境建模模块,用于构建包含电网状态、资源状态、市场状态、气象状态和用户状态的多维状态空间,定义分层动作空间及多目标奖励函数,并输出经状态特征工程处理后的标准化状态特征;所述分层动作空间包括战略层、战术层和执行层;所述分层动作空间中,战略层包括资源配置策略、市场参与策略和风险管理策略;战术层包括调度指令、价格信号和激励策略;所述执行层包括设备控制、通信指令和保护动作; 所述分层动作空间支持连续动作、离散动作及混合动作的编码表示;对连续动作采用实数编码,对离散动作采用独热编码,对同时包含连续参数与离散状态的动作组合采用混合编码; 所述多目标奖励函数定义为: ; 式中,表示综合奖励;为经济效益奖励,为经济效益权重;为可靠性奖励,为可靠性权重;为环境效益奖励,为环境效益权重;为用户满意度奖励,为用户满意度权重; 智能代理模块,用于基于所述标准化状态特征,通过强化学习框架中的Actor-Critic网络生成分层动作空间对应的分层动作,包括战略层动作、战术层动作和执行层动作,并采用改进的PPO算法与优先级经验回放机制,在线更新Actor-Critic网络参数以优化动作选择策略;所述Actor-Critic网络包括: Actor网络接收所述标准化状态特征作为输入,通过多层神经网络处理,输出层采用三层分支结构生成与分层动作空间对应的分层动作; Actor网络的损失函数为: ; 式中,表示状态,表示动作;表示期望;为Actor网络在状态下输出的动作概率;为优势函数值;为策略熵;为熵正则化系数; Critic网络接收状态-动作对作为输入,通过多层神经网络处理,输出状态-动作价值; Critic网络的损失函数为: ; 式中,为预测的状态-动作价值,为目标Q值; 所述采用改进的PPO算法与优先级经验回放机制,在线更新Actor-Critic网络参数以优化动作策略,具体包括: PPO优化器通过比率裁剪限制策略更新幅度,在计算Actor网络损失时约束新旧策略比率在预设区间内,并在所述Actor网络损失中加入基于策略熵的正则化项以促进动作探索; 采用多轮迭代更新方式交替优化Actor网络和Critic网络参数,Critic网络基于预测状态-动作价值与目标Q值之间的均方误差更新参数,所述目标Q值通过独立的目标网络计算,所述目标网络通过软更新机制与Critic网络保持参数同步; 使用广义优势估计器结合多步回报与状态值函数计算优势函数值; 优先级经验回放机制包括:设置容量固定的经验回放缓存区用于存储状态、动作、奖励、下一状态及终止标志的五元组; 根据状态-动作对的时序差分误差动态分配经验样本的优先级,并基于优先级指数分布对优先级构建采样概率分布; 基于所述采样概率分布进行非均匀采样并计算重要性采样权重; 每次Critic网络更新后,重新计算并存储样本的最新优先级以更新概率分布; 网络参数更新过程包含梯度截断操作以防止梯度爆炸; 多智能体协调模块,用于接收所述分层动作,并通过分层智能体架构映射至对应层级的智能体执行,所述战略层动作由顶层协调智能体执行,所述战术层动作由中层调度智能体执行,所述执行层动作由底层控制智能体执行,并通过共识机制解决多智能体冲突; 自适应优化模块,用于根据所述多目标奖励函数的计算结果,通过增量学习跨周期调整Actor-Critic网络参数,并基于元学习机制适应状态空间的动态变化特性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京南自华盾数字技术有限公司,其通讯地址为:211000 江苏省南京市鼓楼区新模范马路38号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励