一种应用于强化学习决策模型的重放比率调整方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种应用于强化学习决策模型的重放比率调整方法，该方法包括：对当前重放缓冲区内的样本数据进行随机采样，确定当前训练样本，其中，当前重放缓冲区对应于当前重放比率，当前重放比率为新样本与旧样本的数量比值；基于当前训练样本对强化学习决策模型进行训练，以确定当前性能反馈参数；若当前训练轮次满足预设重放比率调整条件，则基于当前性能反馈参数、当前重放比率以及至少一种预先设置的重放比率调整策略，确定与重放缓冲区对应的目标重放比率，以基于目标重放比率对当前重放缓冲区进行样本更新，通过动态调整重放比率以平衡新鲜经验的写入重放缓冲区的速度，提高了强化学习决策模型算法的学习效率和最终策略性能。

主权项：1.一种应用于强化学习决策模型的重放比率调整方法，其特征在于，包括：对当前重放缓冲区内的样本数据进行随机采样，确定所述强化学习决策模型在当前训练轮次的当前训练样本；其中，所述当前重放缓冲区用于存放当前训练轮次所述强化学习决策模型所需要的新样本和或旧样本，所述当前重放缓冲区对应于当前重放比率，所述当前重放比率为所述新样本与所述旧样本的数量比值；基于所述当前训练样本对所述强化学习决策模型进行训练，以确定所述强化学习决策模型在当前训练轮次下的至少一个当前性能反馈参数；若所述当前训练轮次满足预设重放比率调整条件，则基于所述当前性能反馈参数、所述当前重放比率以及至少一种预先设置的重放比率调整策略，确定与所述重放缓冲区对应的目标重放比率，以基于所述目标重放比率对所述当前重放缓冲区进行样本更新；其中，所述重放比率调整策略包括基于性能反馈参数的重放比率调整策略和或基于平衡重放比率的重放比率调整策略。

全文数据：

权利要求：

百度查询：电子科技大学一种应用于强化学习决策模型的重放比率调整方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于机器视觉的装配在线检测平台

下一篇：一种蓄电池安装架

相关技术

一种基于机器视觉的装配在线检测平台

一种蓄电池安装架

一种生产包装吸塑盘的模切机构

车用电子水泵

基于多维时序特征的换流变阀侧套管在线绝缘监测方法

一种光伏支架及其单元结构

一种宠物兽医用雾化治疗箱

一种防堵塞的水泵

一种低盐红茶香咸鸭蛋腌制方法

一种智能眼镜

一种建筑消防救援机器人

一种提高示踪器角度测量精度的方法和系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种应用于强化学习决策模型的重放比率调整方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务