一种基于优先场景回放的约束多智体强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于优先场景回放的约束多智体强化学习方法，包括步骤：基于预设的强化学习算法，利用预设的第一场景和预设的第一回放经验池对智体进行训练，训练得到第一经验，并利用所述第一经验更新所述第一回放经验池中的经验，得到第二回放经验池；步骤A：记录所述智体在每个所述第一场景中的性能表现，并利用所述性能表现得到每个所述第一场景的优先级参数；其中，所述优先级参数越低表示所述性能表现越差；基于预设的场景选取算法，根据所述优先级参数的从低到高排序，选取所述第一场景的至少一部分作为第二场景；以及基于所述强化学习算法，利用所述第二场景和所述第二回放经验池对所述智体进行强化学习训练，输出训练后的智体。

主权项：1.一种基于优先场景回放的约束多智体强化学习方法，其特征在于，包括步骤：基于预设的强化学习算法，利用预设的第一场景和预设的第一回放经验池对智体进行训练，训练得到第一经验，并利用所述第一经验更新所述第一回放经验池中的经验，得到第二回放经验池；步骤A：记录所述智体在每个所述第一场景中的性能表现，并利用所述性能表现得到每个所述第一场景的优先级参数；其中，所述优先级参数越低表示所述性能表现越差；基于预设的场景选取算法，根据所述优先级参数的从低到高排序，选取所述第一场景的至少一部分作为第二场景；以及基于所述强化学习算法，利用所述第二场景和所述第二回放经验池对所述智体进行强化学习训练，输出训练后的智体。

全文数据：

权利要求：

百度查询：南方科技大学一种基于优先场景回放的约束多智体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种立式多轴多工位针阀体中孔座面大端面磨床

下一篇：一种钢管加工用分体式冲头

相关技术

一种立式多轴多工位针阀体中孔座面大端面磨床

一种钢管加工用分体式冲头

一种防堵塞的水泵

一种可靠性高的多芯高储能薄膜电容器

发动机壳体铝铸件气密性检测治具及检测设备

一种眼科手术用超声乳化设备

一种生产包装吸塑盘的模切机构

车用电子水泵

可移动设备、刹车装置、驱动组件及锁止机构

一种检查平屋面找坡层坡度测量装置

一种建筑造价测绘装置

一种电镀槽挡水装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于优先场景回放的约束多智体强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务