买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京科技大学
摘要:本发明涉及机器人导航技术领域,特别是指一种集群机器人合作导航的多向课程学习训练方法及装置。一种集群机器人合作导航的多向课程学习训练方法包括:使用训练任务进行训练,获得集群机器人性能表现;根据训练任务,通过多向交叉算子以及多向变异算子,获得阶段任务;根据集群机器人性能表现,使用原型评估方法对阶段任务进行评估,获得集群机器人适应度;根据集群机器人适应度以及阶段任务,获得新训练任务;对多智能体进行强化学习训练;通过训练完成集群机器人进行导航。本发明是一种基于多向课程强化学习高效、稳定的集群机器人合作导航方法。
主权项:1.一种集群机器人合作导航的多向课程学习训练方法,其特征在于,所述方法包括:S1、采集任务空间的任务,获得训练任务;S2、使用训练任务,对集群机器人进行训练,获得集群机器人性能表现;其中,所述集群机器人性能表现是集群机器人执行训练任务的成功率;S3、根据所述训练任务,通过多向交叉算子以及多向变异算子,获得阶段任务;其中,所述根据所述训练任务,通过多向交叉算子以及多向变异算子,获得阶段任务,包括:根据所述训练任务,通过多向交叉算子,获得多向交叉任务;根据所述训练任务,通过多向变异算子,获得多向变异任务;将所述多向交叉任务以及所述多向变异任务进行联合,获得阶段任务;其中,所述多向交叉算子用于将训练任务中的每个任务向目标任务方向进行扩展;其中,所述多向变异算子用于对训练任务引入多样化随机量,提高任务分布的多样性;所述多向变异算子为变异步长λ,是基于拒绝采样的课程变异方法获取;其中,变异步长λ的计算如下式4所示:λ=λ0*random-1,1+λ04其中,自适应突变步长λ0的计算方法如下式5所示: 其中,emax是当前批次中所有阶段任务子元素的最大值,emin是当前批次中所有阶段任务子元素的最小值;fmax是当前批次中所有阶段任务的最大适应度值;fmin是所有当前批次中所有阶段任务的最小适应度值;S4、根据所述集群机器人性能表现,使用原型评估方法对所述阶段任务进行评估,获得集群机器人适应度;其中,所述原型评估方法是一种基于原型的健康评估方法;所述原型评估方法用于评估所述阶段任务的集群机器人适应度;所述原型指的是在阶段任务中集群机器人使用过的训练任务;S5、根据所述集群机器人适应度以及所述阶段任务,获得新训练任务;将所述新训练任务确认为训练任务;其中,所述根据所述集群机器人适应度以及所述阶段任务,获得新训练任务,包括:将所述集群机器人适应度从大到小进行排序,获得降序适应度;根据所述降序适应度,对所述阶段任务进行任务剔除,获得优化任务;保存所述优化任务,获得历史任务集合;采集所述历史任务集合的任务,获得新训练任务;S6、根据所述集群机器人性能表现以及预设阈值进行比对,当所述集群机器人性能表现大于或等于预设阈值时,执行S7;当所述集群机器人性能表现小于预设阈值时,执行S2;S7、根据所述S5中的训练任务,对集群机器人进行强化学习训练,获得训练完成集群机器人;S8、通过所述训练完成集群机器人进行合作导航。
全文数据:
权利要求:
百度查询: 北京科技大学 一种集群机器人合作导航的多向课程学习训练方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。