Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种应用于强化学习决策模型的重放比率调整方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种应用于强化学习决策模型的重放比率调整方法,该方法包括:对当前重放缓冲区内的样本数据进行随机采样,确定当前训练样本,其中,当前重放缓冲区对应于当前重放比率,当前重放比率为新样本与旧样本的数量比值;基于当前训练样本对强化学习决策模型进行训练,以确定当前性能反馈参数;若当前训练轮次满足预设重放比率调整条件,则基于当前性能反馈参数、当前重放比率以及至少一种预先设置的重放比率调整策略,确定与重放缓冲区对应的目标重放比率,以基于目标重放比率对当前重放缓冲区进行样本更新,通过动态调整重放比率以平衡新鲜经验的写入重放缓冲区的速度,提高了强化学习决策模型算法的学习效率和最终策略性能。

主权项:1.一种应用于强化学习决策模型的重放比率调整方法,其特征在于,包括:对当前重放缓冲区内的样本数据进行随机采样,确定所述强化学习决策模型在当前训练轮次的当前训练样本;其中,所述当前重放缓冲区用于存放当前训练轮次所述强化学习决策模型所需要的新样本和或旧样本,所述当前重放缓冲区对应于当前重放比率,所述当前重放比率为所述新样本与所述旧样本的数量比值;基于所述当前训练样本对所述强化学习决策模型进行训练,以确定所述强化学习决策模型在当前训练轮次下的至少一个当前性能反馈参数;若所述当前训练轮次满足预设重放比率调整条件,则基于所述当前性能反馈参数、所述当前重放比率以及至少一种预先设置的重放比率调整策略,确定与所述重放缓冲区对应的目标重放比率,以基于所述目标重放比率对所述当前重放缓冲区进行样本更新;其中,所述重放比率调整策略包括基于性能反馈参数的重放比率调整策略和或基于平衡重放比率的重放比率调整策略。

全文数据:

权利要求:

百度查询: 电子科技大学 一种应用于强化学习决策模型的重放比率调整方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。