浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司陈永辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司申请的专利一种面向多智能体强化学习能源系统的鲁棒对抗训练框架获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306903B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211516697.9,技术领域涉及:G06N3/094;该发明授权一种面向多智能体强化学习能源系统的鲁棒对抗训练框架是由陈永辉;刘轩驿;林彤;王战;李隆锋;陈双照;朱凌风;翁洪康设计研发完成,并于2022-11-30向国家知识产权局提交的专利申请。
本一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在说明书摘要公布了:本发明涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,包括:构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。本发明的有益效果是:本发明将对抗性攻击建模为一个基于单智能体强化学习的攻击对手,并学习得到考虑攻击约束的最强攻击策略。从数学上,将该问题构建为对抗马尔可夫博弈,并通过鲁棒对抗训练提高基于多智能体强化学习的综合能源管理系统的性能。
本发明授权一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在权利要求书中公布了:1.一种面向多智能体强化学习能源系统的鲁棒对抗训练方法,其特征在于,应用于综合能源管理系统,包括: 步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统; 步骤1包括: 步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化: N,S,{Ai}i∈N,P,{Ri}i∈N,γ,{Oi}i∈N,Z 其中,N是智能体数量,S是环境状态,Ai是第i个智能体的动作空间,{Ai}i∈N是联合动作空间,定义为A=A1×…×AN;P:S×A×S→ΔS是任意t时刻给定动作下从状态st到下一个t+1时刻状态st+1的状态转移概率;是第i个智能体从st,at到下一时刻状态st+1的及时反馈奖励;γ是折扣因子;Oi是第i个智能体的观测空间,联合观测空间是{Oi}i∈N,定义为O=O1×…×ON;Z:S×A→ΔO是任意t时刻联合观测ot∈O在任意动作at下,状态st的观测概率; 在t时刻,每个智能体i根据观测通过策略选择动作然后,环境根据状态转移概率P移动到下一个状态,st+1~P·|st,at;每个智能体i获得奖励和新的局部观测 步骤1.2、在所述综合能源管理系统中引入一个对手智能体,通过生成最强对抗攻击引起模型最差性能,将这个系统建模为对抗性部分可观察的随机博弈问题: N,S,Aadv,{Ai}i∈N,P,{Ri}i∈N,Radv,γ,{Oi}i∈N,Z 其中N是受害智能体数量,S是环境状态,Aadv和Radv分别是攻击者的行动空间和奖励函数;Ai是第i个受害智能体的动作空间,{Ai}i∈N是联合动作空间,定义为A=A1×…×AN;P:S×Aadv×A×S→ΔS是给定动作和Aadv下从状态st到下一个时刻状态st+1的状态转移概率;是第i个智能体从st,at到下一时刻状态st+1的及时反馈奖励;γ是折扣因子;Oi是第i个智能体的观测空间,联合观测空间是{Oi}i∈N,定义为O=O1×…×ON;Z:S×A→ΔO是任意t时刻联合观测ot∈O在任意动作at下,状态st的观测概率; 步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动; 步骤2包括: 步骤2.1、固定已预训练的正常被害多智能体系统策略参数θi表示每个智能体策略的模型参数,训练一个对抗智能体策略uφ,φ是攻击智能体的策略参数来模拟对抗攻击并威胁其中一个智能体,其生成的攻击为: 其中,δt是生成的对特定智能体观测的攻击向量,是要攻击的智能体的观测,Boj是扰动的边界约束;被害智能体J的输入表示为: 受害者策略基于扰动观察做出决策: 其中是被攻击后多智能体综合能源管理系统做出的动作; 步骤2.2、固定被害多智能体系统策略πθ,定义了攻击者的奖励函数为Radv=-∑Ri,那么其目标函数为: 其中Jθ,φ=∑Ri,攻击智能体与该多智能体综合能源管理系统进行交互训练,以生成最优攻击策略 步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性; 步骤3中,固定步骤2.2训练得到的最优攻击者策略其中φ*是最优攻击策略的参数,利用其和环境交互生成攻击向量,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性,其目标函数为: 其中Jθ,φ=∑Ri。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司,其通讯地址为:325600 浙江省温州市乐清市南岳镇虹南大道8866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励