北京理工大学张翰澄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利基于群体对抗战术动态生成的多智能体强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115729100B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211281295.5,技术领域涉及:G05B13/04;该发明授权基于群体对抗战术动态生成的多智能体强化学习方法是由张翰澄;李国政;刘驰设计研发完成,并于2022-10-19向国家知识产权局提交的专利申请。
本基于群体对抗战术动态生成的多智能体强化学习方法在说明书摘要公布了:本发明提出一种基于群体对抗战术动态生成的多智能体强化学习方法,通过在利用多智能体强化学习方法解决群体对抗中,引入了动态生成的方式,能够更好地理解场景,克服复杂场景任务理解困难的技术挑战,通过战术充分理解场景任务;通过引入位置热力图,有效的总结和记录了智能体在群体对抗中的行动轨迹,并根据与成功的关联形成了一种概率分布形式,通过使用基于位置热力图的自模仿学习机制,可以使智能体在任务初期将宏观动作倾向于全面探索环境,而在任务中后期将宏观动作集中在利用探索到的关键位置并不断优化。
本发明授权基于群体对抗战术动态生成的多智能体强化学习方法在权利要求书中公布了:1.一种基于群体对抗战术动态生成的多智能体强化学习方法,其特征在于,包括: 步骤1,建立上层宏观动作控制器和下层微观操作控制器,以及上层宏观动作优化器和下层微观操作优化器,并分别初始化网络参数; 步骤2,智能体利用上层宏观动作控制器生成目标位置和宏观动作持续时间: 步骤3,n-n+1,其中n表示第n个智能体,对不同智能体分别执行步骤2,直到所有智能体均利用上层宏观动作控制器生成目标位置和宏观动作持续时间,即n=N,N为智能体个数; 步骤4,多智能体系统中的智能体利用下层微观操作控制器生成具体动作: 步骤5,n-n+1,其中n表示第n个智能体,不同智能体分别执行步骤4,直到所有智能体均利用下层微观操作控制器生成具体动作,即n=N,N为智能体个数; 步骤6,智能体在环境中执行具体动作: 步骤7,智能体反复执行步骤2至步骤6,直到t=T,第i个回合结束,其中,T为一个回合的最大时间步数,t为智能体与环境交互的所处时间步数; 步骤8,智能体引入位置热力图并更新; 步骤9,智能体引入基于热力图的自模仿学习机制损失函数: 该损失函数为交叉熵损失函数,如下式3: 其中,pig为目标位置g的概率分布,G为热力图空间维度大小,Q为上层宏观动作控制器的价值; 步骤10,智能体优化上层宏观动作控制器: 智能体利用上层宏观动作优化器,将N个智能体上层宏观动作控制器的价值输出组合为一个整体上层宏观动作价值; 依据下式5计算TD损失函数: 其中,Θ-,n表示上层宏观动作控制器的目标网络参数,为奖励,QMa为上层宏观动作优化器输出价值,s表示状态,符号下标表示时间,t表示t时刻,为上层宏观动作控制器生成的上层宏观动作,γ为折扣系数; 智能体将交叉熵损失函数和TD损失函数进行组合,得到针对智能体n的上层宏观动作控制器优化损失函数如下式6: 其中,λ为超参数; 步骤11,n-n+1,其中n表示第n个智能体,不同智能体分别执行步骤9至步骤10,直到所有智能体均优化上层宏观动作控制器,即n=N,N为智能体个数; 步骤12,智能体引入包含时空信息的辅助奖励; 步骤13,智能体优化下层微观操作控制器: 智能体利用下层微观操作优化器,将N个智能体下层微观操作控制器的价值输出组合为一个整体动作价值; 依据下式7计算整体的TD损失函数: 其中,β是超参数,θ-是下层微观操作控制器目标网络参数,为选取出的智能体的下一时刻联合微观操作,为辅助奖励,QMi为下层微观操作优化器输出价值; 步骤14、反复执行步骤2至步骤13,直到智能体上层宏观动作控制器和下层微观操作控制器不再变化或达到最大回合数; 步骤15、智能体利用优化好的上层宏观动作控制器生成目标位置和宏观动作持续时间,指导下层微观操作控制器生成具体动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励