强化学习系统训练返回函数的元梯度更新

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：用于强化学习的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。本文所描述的实施例应用元学习特别是元梯度强化学习来学习最优返回函数G，从而改善系统的训练。这提供了训练强化学习系统的更有效和高效的手段，因为系统能够通过训练返回函数G更快地收敛到一个或多个策略参数θ的最优集。特别地，使返回函数G取决于一个或多个策略参数θ，并且使用相对于一个或多个返回参数η被微分的元目标函数J’，以改善对返回函数G的训练。

主权项：1.一种强化学习系统，包括一个或多个处理器，所述一个或多个处理器被配置为：检索由强化学习神经网络生成的多个经验，所述强化学习神经网络被配置为控制与环境交互的代理执行任务，以尝试通过执行基于所述强化学习神经网络的一个或多个策略参数、由所述强化学习神经网络选择的动作来实现指定的结果，每个经验包括表征环境状态的观测数据、所述代理响应于所述观测数据而执行的动作以及响应于所述动作而接收到的奖励，其中，所述观测数据包括图像、对象位置数据、以及除图像或对象位置数据之外的传感器数据中的一个或多个，或者所述观测数据包括图像、对象位置数据、以及除图像或对象位置数据之外的传感器数据中的一个或多个的模拟版本；以及通过如下步骤训练所述强化学习神经网络：使用基于奖励计算返回的返回函数、基于第一经验集更新所述强化学习神经网络的一个或多个策略参数；以及基于一个或多个更新的策略参数和第二经验集，更新所述返回函数的一个或多个返回参数，其中，所述一个或多个返回参数包括所述返回函数的折扣因子和所述返回函数的自举因子中的一个或多个，并且所述一个或多个返回参数使用相对于所述一个或多个返回参数被微分的元目标函数经由梯度上升或下降方法来更新，其中，所述元目标函数取决于所述一个或多个策略参数，并且被微分的元目标函数为：其中：η是所述一个或多个返回参数；并且J′τ′,θ′,η′是以所述第二经验集τ′、所述一个或多个更新的策略参数θ′和形成所述元目标函数的部分的进一步的返回函数的一个或多个进一步的返回参数η′为条件的所述元目标函数，其中，所述一个或多个进一步的返回参数在训练期间保持固定，并且其中，所述进一步的返回函数能够不同于基于代理接收到的奖励计算返回的返回函数。

全文数据：

权利要求：

百度查询：渊慧科技有限公司强化学习系统训练返回函数的元梯度更新

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种防盗门的通风除尘装置

下一篇：装修用装饰面板

相关技术

一种防盗门的通风除尘装置

装修用装饰面板

一种胺脱氢酶、基因、重组菌、胺脱氢酶粗酶液、脱氢酶组合物、脱氢酶粗酶液组合物和制备(R)-3-氨基丁醇的方法

一种烧结台车轮偏移的检测方法、装置、存储介质及设备

一种高温气冷堆的供电装置

一种公路桥梁养护用路面修补装置

一种户外便携投放式免清洗取水净水一体化装备

一种马铃薯渣制备饲料用混合装置及其加工方法

一种带储物装置的箱包拉杆组件及箱包

一种基于Agent的分布式HTTPS代理系统和方法

一种蒸压轻质加气混凝土砌块生产用成型设备

货厢和车辆

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

强化学习系统训练返回函数的元梯度更新

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务