买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:用于强化学习的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。本文所描述的实施例应用元学习特别是元梯度强化学习来学习最优返回函数G,从而改善系统的训练。这提供了训练强化学习系统的更有效和高效的手段,因为系统能够通过训练返回函数G更快地收敛到一个或多个策略参数θ的最优集。特别地,使返回函数G取决于一个或多个策略参数θ,并且使用相对于一个或多个返回参数η被微分的元目标函数J’,以改善对返回函数G的训练。
主权项:1.一种强化学习系统,包括一个或多个处理器,所述一个或多个处理器被配置为:检索由强化学习神经网络生成的多个经验,所述强化学习神经网络被配置为控制与环境交互的代理执行任务,以尝试通过执行基于所述强化学习神经网络的一个或多个策略参数、由所述强化学习神经网络选择的动作来实现指定的结果,每个经验包括表征环境状态的观测数据、所述代理响应于所述观测数据而执行的动作以及响应于所述动作而接收到的奖励,其中,所述观测数据包括图像、对象位置数据、以及除图像或对象位置数据之外的传感器数据中的一个或多个,或者所述观测数据包括图像、对象位置数据、以及除图像或对象位置数据之外的传感器数据中的一个或多个的模拟版本;以及通过如下步骤训练所述强化学习神经网络:使用基于奖励计算返回的返回函数、基于第一经验集更新所述强化学习神经网络的一个或多个策略参数;以及基于一个或多个更新的策略参数和第二经验集,更新所述返回函数的一个或多个返回参数,其中,所述一个或多个返回参数包括所述返回函数的折扣因子和所述返回函数的自举因子中的一个或多个,并且所述一个或多个返回参数使用相对于所述一个或多个返回参数被微分的元目标函数经由梯度上升或下降方法来更新,其中,所述元目标函数取决于所述一个或多个策略参数,并且被微分的元目标函数为: 其中:η是所述一个或多个返回参数;并且J′τ′,θ′,η′是以所述第二经验集τ′、所述一个或多个更新的策略参数θ′和形成所述元目标函数的部分的进一步的返回函数的一个或多个进一步的返回参数η′为条件的所述元目标函数,其中,所述一个或多个进一步的返回参数在训练期间保持固定,并且其中,所述进一步的返回函数能够不同于基于代理接收到的奖励计算返回的返回函数。
全文数据:
权利要求:
百度查询: 渊慧科技有限公司 强化学习系统训练返回函数的元梯度更新
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。