山东大学李珂获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利一种多重不确定环境下的综合能源系统优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120822667B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511315858.1,技术领域涉及:G06Q10/04;该发明授权一种多重不确定环境下的综合能源系统优化方法及系统是由李珂;牟宇宸;王海洋;张承慧设计研发完成,并于2025-09-16向国家知识产权局提交的专利申请。
本一种多重不确定环境下的综合能源系统优化方法及系统在说明书摘要公布了:本发明涉及综合能源系统技术领域,提供了一种多重不确定环境下的综合能源系统优化方法及系统,包括:获取综合能源系统的状态,通过演员网络,得到多能流设备动作;其中,将MPC演员嵌入双延迟深度确定性策略梯度架构中,将演员网络和MPC演员的转移元组分别存入智能体经验回放池和专家经验回放池,根据两经验回放池中样本的时序差分误差,为每个样本赋予优先级,并根据训练的时间步确定混合比例,结合混合比例与优先级,计算样本的采样概率,进而控制评论网络的更新在训练初期对专家经验回放池的依赖度高,在训练后期对智能体经验回放池的依赖度高。在多重不确定性耦合的IES环境中性能更优。
本发明授权一种多重不确定环境下的综合能源系统优化方法及系统在权利要求书中公布了:1.一种多重不确定环境下的综合能源系统优化方法,其特征在于,包括: 获取综合能源系统历史源-荷-价数据,将其转化为马尔可夫决策过程,得到综合能源系统的状态; 基于状态,通过演员网络,得到多能流设备动作; 其中,演员网络的训练过程中,将MPC演员嵌入双延迟深度确定性策略梯度架构中,将演员网络和MPC演员的转移元组分别存入智能体经验回放池和专家经验回放池,根据两经验回放池中样本的时序差分误差,为每个样本赋予优先级,并根据训练的时间步确定混合比例,结合混合比例与优先级,计算样本的采样概率,进而控制评论网络的更新在训练初期对专家经验回放池的依赖度高,在训练后期对智能体经验回放池的依赖度高,并借助评论网络对动作的价值梯度引导演员网络优化输出动作; 所述演员网络的训练过程中,对于每个时间步,执行如下步骤:MPC演员在当前时间步状态下选择动作,并与环境交互得到奖励和下一时间步状态,将MPC演员的转移元组存入专家经验回放池,并设置专家经验回放池中每个样本的优先级;演员网络在当前时间步状态下选择动作,并与环境交互得到奖励和下一时间步状态,将演员网络的转移元组存入智能体经验回放池,并设置智能体经验回放池中每个样本的优先级;若当前时间步是经验回放间隔的整数倍,则基于专家经验回放池和智能体经验回放池,结合目标网络,对评论网络执行多次小批量更新操作,并更新经验回放池中样本的优先级;若当前时间步是设定间隔的整数倍,则更新演员网络和目标网络; 所述小批量更新操作包括:根据样本的采样概率,从经验回放池中采样转移数据;对于采样的转移数据,基于采样概率,计算重要性采样权重;在当前时间步状态下,采用目标演员网络,生成目标动作,为目标动作添加高斯噪声,根据目标评论网络,计算时序差分目标,计算时序差分目标与评论网络结果的差异,得到时序差分误差;根据时序差分误差,更新经验回放池中样本的优先级;基于时序差分误差和重要性采样权重,计算评论网络的损失,更新评论网络参数; 所述采样概率为: ; 其中,Pj为第j个样本的采样概率;线性权重衰减系数,与分别为初始与最终衰减系数,T为总训练步数,l表示当前时间步;typej=MPC代表第j个样本来自专家经验回放池,typej=Agent表示第j个样本来自智能体经验回放池;Dagent和Dmpc分别为智能体经验回放池和专家经验回放池中样本的数量;β为优先级强度系数;pj是第j个样本的优先级,pz和pd分别代表来自智能体经验回放池和专家经验回放池的样本的优先级。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250000 山东省济南市历下区经十路17923号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励