一种基于近端对抗约束策略搜索的离线强化学习方法

导航：龙图腾网> 最新专利技术> 一种基于近端对抗约束策略搜索的离线强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作，作为策略约束的参考动作，提高策略约束效率；然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似，构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索，允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计，可以有效选择分布外动作，突破点‑点策略约束禁止选择分布外动作的决策性能限制，缩小学习策略与最优策略的性能差异。

主权项：1.一种基于近端对抗约束策略搜索的离线强化学习方法，其特征在于，包括如下步骤：步骤1，构建高级行为策略网络、Q函数和近端对抗约束策略网络；步骤2，利用行为策略πβ与机器人环境交互，收集经验转换数据s,a,r,s′的静态离线数据集一条经验转换数据s,a,r,s′表示机器人当前状态s，通过策略πβ执行动作a，获取即时奖励r，转换到下一时刻状态s′；步骤3，从静态离线数据集中采样小批次经验转换数据；步骤4，以采样的静态离线数据集内动作a＝πβs作为参考动作构建的约束策略搜索，去更新获取优于行为策略πβ的高级行为策略μ，为近端对抗约束策略搜索提供样本外高级行为动作μs；同时更新获取稳定估计的Q函数步骤5，利用函数高级行为动作μs和静态离线数据集内动作a，对近端对抗约束策略πρ进行更新；步骤6，重复步骤3-5，更新高级行为策略网络、Q函数和近端对抗约束策略网络的网络参数，学习到最优近端对抗约束策略。

全文数据：

权利要求：

百度查询：中国矿业大学一种基于近端对抗约束策略搜索的离线强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种复合垫片的双密封面加工设备及加工工艺

下一篇：酿造结构及酿造装置

相关技术

一种复合垫片的双密封面加工设备及加工工艺

酿造结构及酿造装置

一种立式多轴多工位针阀体中孔座面大端面磨床

5G网络资源动态调整方法

一种宠物兽医用雾化治疗箱

一种随机数发生器芯片及量子加密装置

一种具有碰撞缓冲功能的检测浮标

北美型猪繁殖与呼吸综合征病毒囊膜主要糖蛋白GP5的保守中和表位QT7、核酸分子、表达载体、中和抗体及其应用

一种宽流道纸浆泵

一种检查平屋面找坡层坡度测量装置

一种玻璃钢罐生产支撑限位装置

一种PE管生产韧性检测设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于近端对抗约束策略搜索的离线强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务