恭喜河海大学谢在鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜河海大学申请的专利一种基于值分解的多智能体强化学习方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114662639B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210301408.7,技术领域涉及:G06N3/008;该发明授权一种基于值分解的多智能体强化学习方法及系统是由谢在鹏;邵鹏飞;高原;张雨锋设计研发完成,并于2022-03-24向国家知识产权局提交的专利申请。
本一种基于值分解的多智能体强化学习方法及系统在说明书摘要公布了:本发明公开了一种基于值分解的多智能体强化学习方法及系统,方法包括:获取环境当前t时刻的状态St,每个智能体初始的观察值可获得的动作以及该动作对应的奖励r;对于每个智能体,通过评估‑智能体网络计算每个动作基于局部信息τi观察到的值函数Qiτi;利用随机‑智能体网络得到每个智能体基于全局信息τ的奖励值函数Qiτ;利用目标‑智能体网络计算损失函数并更新参数;利用竞争‑智能体网络将每个智能体基于全局信息τ的奖励值函数Qiτ进行分解;将分解结果相加得到基于全局信息τ的联合奖励值函数Qtotτ,a,完成训练。本发明对多智能体之间的逻辑拓扑关系进行了双重提取,在复杂的异构部分可观测场景中,提高智能体的学习效率和应变能力。
本发明授权一种基于值分解的多智能体强化学习方法及系统在权利要求书中公布了:1.一种基于值分解的多智能体强化学习方法,其特征在于,包括以下步骤:获取环境当前t时刻的状态St,每个智能体初始的观察值可获得的动作以及该动作对应的奖励r,其中i为智能体的序号,状态St包含当前多智能体场景下的智能体数量,角色类型和上一时刻得到的联合奖励Q值函数大小;对于每个智能体,通过评估-智能体网络计算每个动作基于局部信息τi观察到的值函数Qiτi,其中局部信息τi是智能体i的观察值动作奖励r和状态St的信息集合;利用随机-智能体网络对当前时刻状态St加上参数化的噪音,使权重和偏置参数随机化,再将每回合结束时训练好的权重和偏置参数与每个智能体基于局部信息τi的Qiτi进行权重求和,得到每个智能体基于全局信息τ的奖励值函数Qiτ;目标-智能体网络计算损失函数并更新参数,接着随机-智能体网络也更新噪声参数并计算损失函数,其中目标-智能体网络是每隔一段时间对评估-智能体网络进行参数复制得到的;利用竞争-智能体网络将每个智能体基于全局信息τ的奖励值函数Qiτ分解为优势值函数、状态值函数和动作值函数,竞争-智能体网络对每个智能体的奖励值函数Qiτ进行分解包括:将当前时刻t的全局状态St输入到评估-智能体网络中转化为只受状态影响的Q值函数,即状态值函数Siτ;把当前时刻t智能体i所选择的动作输入到随机-智能体网络中并输出动作值函数Ciτ;把每个智能体基于全局信息τ的奖励值函数Qiτ减去Siτ和Ciτ得到优势值函数Aiτ,将每个智能体的Siτ求和得到联合状态值函数Stotτ,Ciτ求和得到联合动作值函数Ctotτ,再把每个智能体的Aiτ乘以一个系数δ并相加求和得到Atotτ;将分解结果相加得到基于全局信息τ的联合奖励值函数Qtotτ,a,Qtotτ,a=Stotτ+Atotτ+Ctotτ,并更新竞争-智能体网络的参数和整体的损失函数,参数更新完毕后,利用训练完成的智能体在环境中执行动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:211100 江苏省南京市江宁区佛城西路8号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。