买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及强化学习和多智能体博弈技术领域,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。方法包括:基于ATP框架,确定团队主任务以及个人辅助任务,根据Actor‑Critic框架,确定团队策略以及个人策略,确定团队策略中执行动作的奖励和每个个人策略中执行动作的奖励;根据个人策略、个人策略中执行动作的奖励、团队策略以及团队策略中执行动作的奖励,确定个人策略与团队策略之间的相似度;将经验放置到ATP框架的经验池中,并对经验池中的经验进行排序;以相似度为约束,基于经验池的经验回放机制,对个人策略和团队策略分别进行更新。采用本发明,可以在提高多智能体任务训练效率的同时,促进智能体间的合作,不会增加额外的计算负担。
主权项:1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:S1、基于ATP框架,确定多智能体的团队主任务以及每个智能体的个人辅助任务;S2、根据个人辅助任务和团队主任务,根据Actor-Critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励;每个策略至少包括环境状态、执行动作以及下一个状态;S3、根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度;S4、将每个策略中的环境状态、执行动作、下一个状态以及执行动作对应的奖励作为经验,放置到ATP框架的经验池中,并对经验池中的经验进行排序;S5、以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略和团队策略分别进行更新;S6、重复执行S2-S5,直至完成团队主任务。
全文数据:
权利要求:
百度查询: 北京科技大学 一种主任务和辅助任务并行的智能体分配方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。