首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种从不完美演示中学习的强化学习智能体训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江苏大学

摘要:本发明提出了一种从不完美演示中学习的强化学习智能体训练方法,该方法首先利用使用双推力策略生成初步演示填充演示池,并在正式训练前利用初步演示,使用演示回放方法对智能体进行预训练,预训练结束后,让智能体直接与环境交互,并生成交互轨迹填充演示池。交互一定轮次后,抽取一定数量演示并使用演示回放方法对智能体进行正式训练,在正式训练中,使用不完美演示判别技术对用于训练的演示进行判别,并根据判别结果对训练过程进行相应调整。最终获得的训练方法相较基准方法能够提升智能体性能。

主权项:1.一种从不完美演示中学习的强化学习智能体训练方法,其特征在于,包括下列步骤:步骤1:输入训练用数据后,进入训练过程;步骤2:判断训练轮次是否已大于设定的终止条件,如满足,进入步骤8,否则跳入步骤3进行循环;步骤3:判断演示填充是否完成,如完成,进入步骤4,否则进行演示填充后跳入步骤3进行循环;步骤4:判断预训练是否完成,如完成,进入步骤5,否则使用填充的演示对智能体进行预训练后跳入步骤3进行循环;步骤5:获取后续用于演示回放训练的演示并使用不完美演示鉴别机制对这些演示进行鉴别,得到鉴别后的演示评估值;步骤6:结合演示演示评估值使用演示回放方法对智能体进行训练;步骤7:对训练后获得的智能体的指标进行评估,如满足记录条件,则将该智能体进行记录保存后进入步骤3,否则直接进入步骤3;步骤8:结束。

全文数据:

权利要求:

百度查询: 江苏大学 一种从不完美演示中学习的强化学习智能体训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。